做了一个 elk 日志监控系统,通过 elastalert2 推送到钉钉上,遇到的问题是微服务某一个服务发版重启了,(目前都是单机部署)会导致不断的发送 timeout 这类的报警,期望是,重启服务阶段不进行报警,大佬们有好的思路吗
1
2Nfree 2 天前
elastalert2 的日志告警原理上就是查询 ES ,直接设置规则 query must_not 对应 timeout 的日志类别,如果要是要求更高级的日志告警还是推荐用 flink cep 去做
|
2
Curiosity777 OP @2Nfree 好的,只是想控制重启期间的 timeout ,正常的还是要的,cep 我去了解下,感谢您的宝贵回答
|
3
2Nfree 2 天前
@Curiosity777 #2 如果重启期间的 timeout 报错和正常的 timeout 的报错是一致的,那你这种需要监听日志上下文,如应用程序获取了 SIGNTEM 的信号,就发出一个应用被关闭的信号日志,然后通过窗口监听上文中有被关闭的信号再去屏蔽发版的 timeout 报错,但是我感觉这个需求有点伪需求的意思了,你知道他在发版了实际上就人工忽略就好了
|
4
Curiosity777 OP @2Nfree #3 好的,明白了,谢谢大佬
|
5
NoKey 2 天前
咋区分到底是人工停机发版、重启,还是系统自动给 kill 了呢?直接认为忽略啊,x 点到 x 点发版,此时间范围内有运维组跟踪,收到消息请忽略,巴拉巴拉的
|
6
FarmerChillax 2 天前
是不是应该考虑解决方向「为什么重启期间有告警?」
- 是不是没有最好流量无损? |
7
FarmerChillax 2 天前
@FarmerChillax 最好 -> 做好
|
8
codepark 2 天前
|
10
brianinzz 2 天前
最近在做日志收集的选型所以 ELK 还是最优解吗? 还是现在有更好的方案
|
11
yhl601125163 1 天前
@brianinzz doris
|