Zabbix自定义监控php-fpm性能状态、报警

一、启用php-fpm状态页面

PHP5.3.3之后就集成了php-fpm模块,不需要额外的安装包

1. 配置php-fpm.conf
1
2
3
vim /a01/apps/php7/etc/php-fpm.d/www.conf

pm.status_path = /php_status
2. 配置nginx可以访问到php-fpm的状态页面
1
2
3
4
5
6
7
8
9
10
vim /etc/nginx/conf.d/nong.conf

location ~ ^/(php_status)$ {
include fastcgi_params;
fastcgi_pass 127.0.0.1:9000;
fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name;
access_log off;
allow 192.168.10.26;
deny all;
}

(上边1和2步骤的/php_status字段,名字设置要相同,否则页面无法访问到)

1
2
3
nginx -t
nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
nginx: configuration file /etc/nginx/nginx.conf test is successful
3. 重启php-fpm和nginx
1
2
service nginx restart
service php-fpm restart
4. 访问php_status查看
  • 上边设置了只允许本机IP访问该页面,所以只能在本机上访问查看
1
curl http://www.nong.com/php_status

P6CtIS.png

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
参数说明:
pool # fpm池名称,大多数为www
process manager #进程管理方式,现今大多都为dynamic,不要使用static
start time # php-fpm上次启动的时间
start since # php-fpm已运行了多少秒
accepted conn #当前pool接收的请求数
listen queue #处于等待状态中的连接数,如果不为0,需要增加php-fpm进程数
max listen queue #从php-fpm启动到现在处于等待连接的最大数量
listen queue len #处于等待连接队列的套接字大小
idle processes #处于空闲状态的进程数
active processes #处于活动状态的进程数
total processes #进程总数
max active processes #从php-fpm启动到现在最多有几个进程处于活动状态
max children reached #当pm试图启动更多的children进程时,却达到了进程数的限制,达到一次记录一次,如果不为0,需要增加php-fpm pool进程的最大数
slow requests #慢请求,当启用了php-fpm slow-log功能时,如果出现php-fpm慢请求这个计数器会增加,一般不当的Mysql查询会触发这个值

二、在被监控端上编写监控脚本

1. 创建zabbix脚本存放目录
1
mkdir -p /etc/zabbix/scripts
2. 编写监控脚本
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
vim /etc/zabbix/scripts/php_status.sh

#!/bin/bash
############################################################
# $Name: php_status.sh
# $Function: PHP-fpm Status
# $Author: Mr.nong
# $organization: nongziyi.xin
# $Create Date: 2018/1/19
# $Description: Monitor PHP Service Status
############################################################

HOST="www.nong.com"
PORT=80

#检测php是否存活
function status {
/sbin/pidof php-fpm | wc -l
}

#检测php-fpm已运行了多少秒
function since {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | grep 'start since' | awk '{print $NF}'
}

#检测当前pool接收的请求数
function accepted_conn {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | grep 'accepted conn' | awk '{print $NF}'
}

#检测处于等待状态中的连接数,如果不为0,需要增加php-fpm进程数
function listen_queue {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | awk '/^listen queue:/ {print $NF}'
}

#检测从php-fpm启动到现在处于等待连接的最大数量
function max_listen_queue {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | awk '/^max listen queue:/ {print $NF}'
}

#检测处于等待连接队列的套接字大小
function listen_queue_len {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | awk '/^listen queue len:/ {print $NF}'
}

#检测处于空闲状态的进程数
function idle_processes {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | awk '/^idle processes:/ {print $NF}'
}

#检测处于活动状态的进程数
function active_processes {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | awk '/^active processes:/ {print $NF}'
}

#检测进程总数
function total_processes {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | awk '/^total processes:/ {print $NF}'
}

#检测从php-fpm启动到现在最多有几个进程处于活动状态
function max_active_processes {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | awk '/^max active processes:/ {print $NF}'
}

#当pm试图启动更多的children进程时,却达到了进程数的限制,达到一次记录一次,如果不为0,需要增加php-fpm pool进程的最大数
function max_children_reached {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | awk '/^max children reached:/ {print $NF}'
}

#慢请求
function slow_requests {
/usr/bin/curl "http://$HOST:$PORT/php_status" 2>/dev/null | awk '/^slow requests:/ {print $NF}'
}

#执行function
$1
3. 给予脚本执行权限
1
chmod +x /etc/zabbix/scripts/php_status.sh
4. 编辑zabbix_agentd的配置文件支持自定义脚本
1
2
3
vim /etc/zabbix/zabbix_agentd.conf

UnsafeUserParameters=1
5. 编辑zabbix_agentd的配置文件添加zabbix配置文件目录
1
2
3
vim /etc/zabbix/zabbix_agentd.conf

Include=/etc/zabbix/zabbix_agentd.conf.d/
6. 配置php_status的key文件
1
2
3
4
cd /etc/zabbix/zabbix_agentd.conf.d/
vim php_status.conf

UserParameter=php.status[*],/etc/zabbix/scripts/php_status.sh $1
1
2
3
4
5
参数说明:
其中的格式为UserParameter=<key>,<command>

<key>:就是在web端添加监控脚本时的key值
<command>:就是该key值对应的执行脚本,也就是脚本执行路径
7. 重启zabbix_agentd服务
1
service zabbix_agentd restart

P6CaGQ.png

8. 在zabbix server端进行测试
1
/a01/apps/zabbix/bin/zabbix_get -s 192.168.10.26 -k 'php.status[status]'

P6C2iF.png

9. 到zabbix web前端创建模板
  • “配置”——“模板”——“创建模板”

P6CRG4.png

10. 创建应用集
  • “配置”——“模板”——“应用集”——“创建应用集”

P6CWRJ.png

11. 创建监控项
  • “配置”——“模板”——“监控项”——“创建监控项”

P6Cfz9.png

12. 上边只创建了一个监控php的存活状态的,还有很多个,我们克隆然后修改参数即可
  • “配置”——“模板”——“监控项”——“克隆”

P6C5s1.png

  • 向下拉到底部——“克隆”

P6CIqx.png

  • 然后修改参数

P6CTZ6.png

  • 脚本中有N个就克隆N个即可

P6CLJe.png

13. 把模板应用到客户机上
  • “配置”——“主机”——“模板”

P6CORH.png

14. 查看是否获取到数据
  • “监测中”——“最新数据”——“过滤器”——“应用”

P6CvQA.png

P6CzLt.png

15. 为php性能状态信息创建图形
  • “配置”——“主机”——“图形”——“创建图形”

P6PpeP.png

P6P9df.png

P6PFJg.png

P6PkWQ.png

P6PVQs.png

16. 查看我们创建的图形
  • “监测中”——“图形”——“过滤器”

P6PeLq.png

P6Pne0.png

P6PQFU.png

P6PlYF.png

三、报警

A、php-fpm宕机报警

1. 创建php-fpm进程的触发器,如果php-fpm宕了,则报警
  • “配置”——“主机”——“触发器”——“创建触发器”

P6Pgmt.png

P6PhtS.png

1
2
3
4
5
6
7
8
9
10
11
12
上图中的参数说明:
1、监控项:定义被监控项的阈值

2、功能:功能说起来比较麻烦,但是并不难理解,我举个例子,假如设定,一个养鸡场的温度不能低于30度,如果低于30度,则报警;那么我也可以设定,如果温度等于30度,我们就报警;或者说,如果温度高于30度就报警。那到底是低于,等于,还是高于,这得看我们自己怎么设定。还有就是,我们还可以设定,如果5分钟前的检测低于/等于/高于30度,报警;甚至还可以这样,如果连续10分钟内获取的温度值的平均值都低于/等于/高于30度,报警。那么在zabbix中,怎样实现这样灵活的设定呢,就是通过“功能”栏定义的,比如,最近T次监测或者T分钟内的监测,养鸡场的温度出现了小于N度的情况,在功能栏中可以选择“最新的T值<N”。

3、最后一个(T):我们在“功能”中,已经选择了某种定义,比如“最新的T值<N”,那么T是以时间为单位呢,还是以次数为单位呢,如果我们想定义“最近的第T次,养鸡场的温度小于30度”,那么此处需要选择“计数”。如果我们想要定义“最近T分钟内,养鸡场的温度小于30度”,那么此处需要选择“时间”。

4、排班:如果我们想要定义“最近T分钟内,养鸡场的温度小于30度”,则“最后一个(T)”需要选择“时间”,同时在此处指明时间长度,默认单位是秒。

5、N:此处用于设置N的值,比如“最近一次监测的养鸡场温度小于30度”,那么这里N就是30。

在本例中,我监控了php-fpm是否存活这个监控项,通过之前脚本可以知道,这个监控项的数值只会为0或者1。结果为1,则nginx正常运行;结果为0,则nginx宕机。所以我把功能选择为“最新的T值<N”,并把N的值设置为1,整个触发器的意思就是:在最近的3次监测中,php-fpm的状态都小于1,则报警。
2. 接下来我们去把被监控端的php-fpm停掉,看看仪表板有没有报警,现在尚未配置微信或者邮件报警,所以只在仪表板上边进行报警

P6PIpQ.png

  • 查看一下
  • “监测中”——“图形”——“过滤器”

P6incd.png

B、php-fpm性能参数listen_queue不为0时,报警

  • (当前pool接收的请求数处于等待状态中的连接数,如果不为0,需要增加php-fpm进程数)
  • “配置”——“主机”——“触发器”——“创建触发器”

P6AY9O.png

P6At3D.png

  • 在本例中,我监控了php的listen_queue性能参数,该参数意思为当前pool的等待连接数,如果该参数不为0,则需要增加php-fpm的进程数。整个触发器的意思就是:在最近的5分钟内,listen_queue的值都大于0,则报警。

C、php-fpm性能参数max_children_reached不为0时,报警

  • (处于活动状态的进程数当pm试图启动更多的children进程时,却达到了进程数的限制,达到一次记录一次,如果不为0,需要增加php-fpm pool的最大进程数)
  • “配置”——“主机”——“触发器”——“创建触发器”

P6AUjH.png

P6A0HI.png

  • 整个触发器的意思就是:在最近的5分钟内,max_children_reached的值都大于0,则报警。

P6ADEt.png

博主QQ:1012405802
技术交流QQ群:830339411
版权声明:网站内容有原创和转载,如有侵权,请联系删除,谢谢!!
感谢打赏,93bok因你们而精彩!!(支付宝支持花呗)
0%