zabbix 相关生产事故

1/12/2018 zabbix

# Zabbix 生产事故

# Zabbix 出现过哪些问题

  1. 收到 Server端IO过高报警、agent无法收到数据,agent掉线

    1. 问题表现:Zabbix server IO过高

    2. 问题查找:Zabbix-server 和mysql在同一台服务器,zabbix 默认会有每个小时delete history history_uint 导致IO负载过高

    3. 解决问题方案:

      1. Zabbix-server 修改配置文件
      HousekeepingFrequency=1  //历史数据清理时长,默认1小时,
      MaxHousekeeperDelete=500 //每次删除历史数据的条数,默认5000调小该值,减少IO 慢查询
      
      1
      2
      1. Zabbix-server中的mysql分离到其他服务器
  2. Agent 监控项过多,优化模板,把不用的监控指标剔除

    • 修改agent配置文件 60s
    • item 自定修改某些监控项 时间间隔
  3. 误报警?zabbix-proxy 挂了? zabbix代理端的所有agent都会产生报警

    1. 大量报警,发现所有报警都来之一个proxy代理端

    2. 处理问题:

      1. 关闭报警
      2. zabbix-server 大量队列信息,杀死队列
      3. 触发器,如果检测到proxy有问题,shell脚本处理上面流程信息。
  4. DDL(自动发现)

    应用:40台服务器,主机组》添加基础模板》--- 触发器

  5. 每一s监控一次数据,自己用Python,最好方式用go写,根据需求

    如何是500台或者1000台以上? 参考方案:

    • prometheus + grafana
      • 开发语言 go
      • 随着k8s诞生的。k8s落地 肯定
        • node-exporter
        • cadvisor
    • open-falcon + Grafana
      • 底层go
      • dashboard Python+django
      • 模块化 每个模块进行分布式