# 记录一次 ELK问题
# 问题现象
代码更新后,出现大量写日志情况。
ELK 服务器日志量增大, 存储空间占用量高达 95%
核心业务服务器 CPU 飙升
代码修复后,CPU 降低
ELK存储较低, 删除ELK 索引 几天,腾出空间。
所有事情都处理完,以为没有什么事了,
**结果查看 ELK ** CPU及 网络流量 仍旧居高不下
# 分析
由于日志队列 还未跑完(等待10分钟没有恢复正常) PASS
查看核心服务器,通过 htop 、iotop 等工具 发现
filebeat 占用CPU 过高
查看filebeat日志 报错如下:
2018-06-13T23:59:25+08:00 WARN Can not index event (status=403): {"type":"cluster_block_exception","reason":"blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];"}
1
google 搜索
https://github.com/ankane/searchkick/issues/1040
https://discuss.elastic.co/t/config-error-403-forbidden-blocked-by-forbidden-12-index-read-only-allow-delete-api-cluster-block-exception-blocked-by-forbidden-12-index-read-only-allow-delete-api/113361
通过查询,发现 elasticsearch
当磁盘过满时候,会转为只读 无法再写入
但是filebeat
队列依旧存在。
重启所有客户端 filebeat
世界一下清净了。。
# 总结
- 一定要监控es健康指标
- 对filebeat要做相应把控
- 尽量做到所有事情不影响线上业务