# Zabbix 生产事故
# Zabbix 出现过哪些问题
收到 Server端IO过高报警、agent无法收到数据,agent掉线
问题表现:Zabbix server IO过高
问题查找:Zabbix-server 和mysql在同一台服务器,zabbix 默认会有每个小时delete history history_uint 导致IO负载过高
解决问题方案:
- Zabbix-server 修改配置文件
HousekeepingFrequency=1 //历史数据清理时长,默认1小时, MaxHousekeeperDelete=500 //每次删除历史数据的条数,默认5000调小该值,减少IO 慢查询
1
2- Zabbix-server中的mysql分离到其他服务器
Agent 监控项过多,优化模板,把不用的监控指标剔除
- 修改agent配置文件 60s
- item 自定修改某些监控项 时间间隔
误报警?zabbix-proxy 挂了? zabbix代理端的所有agent都会产生报警
大量报警,发现所有报警都来之一个proxy代理端
处理问题:
- 关闭报警
- zabbix-server 大量队列信息,杀死队列
- 触发器,如果检测到proxy有问题,shell脚本处理上面流程信息。
DDL(自动发现)
应用:40台服务器,主机组》添加基础模板》--- 触发器
每一s监控一次数据,自己用Python,最好方式用go写,根据需求
如何是500台或者1000台以上? 参考方案:
prometheus
+grafana
- 开发语言 go
- 随着k8s诞生的。k8s落地 肯定
- node-exporter
- cadvisor
open-falcon + Grafana
- 底层go
- dashboard Python+django
- 模块化 每个模块进行分布式