记录一次 ELK问题

12/7/2017 ELK

# 记录一次 ELK问题

# 问题现象

  • 代码更新后,出现大量写日志情况。

  • ELK 服务器日志量增大, 存储空间占用量高达 95%

  • 核心业务服务器 CPU 飙升

  • 代码修复后,CPU 降低

  • ELK存储较低, 删除ELK 索引 几天,腾出空间。

所有事情都处理完,以为没有什么事了,

**结果查看 ELK ** CPU及 网络流量 仍旧居高不下

img

# 分析

  1. 由于日志队列 还未跑完(等待10分钟没有恢复正常) PASS

  2. 查看核心服务器,通过 htop 、iotop 等工具 发现

  • filebeat 占用CPU 过高

  • 查看filebeat日志 报错如下:

2018-06-13T23:59:25+08:00 WARN Can not index event (status=403): {"type":"cluster_block_exception","reason":"blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];"}
1

google 搜索

https://github.com/ankane/searchkick/issues/1040

https://discuss.elastic.co/t/config-error-403-forbidden-blocked-by-forbidden-12-index-read-only-allow-delete-api-cluster-block-exception-blocked-by-forbidden-12-index-read-only-allow-delete-api/113361

通过查询,发现 elasticsearch 当磁盘过满时候,会转为只读 无法再写入

但是filebeat 队列依旧存在。

重启所有客户端 filebeat 世界一下清净了。。

img

# 总结

  • 一定要监控es健康指标
  • 对filebeat要做相应把控
  • 尽量做到所有事情不影响线上业务