V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Curiosity777
V2EX  ›  Java

请教一下关于 elk 日志报警,服务重启不断推送报警问题

  •  
  •   Curiosity777 · 2 天前 · 859 次点击

    做了一个 elk 日志监控系统,通过 elastalert2 推送到钉钉上,遇到的问题是微服务某一个服务发版重启了,(目前都是单机部署)会导致不断的发送 timeout 这类的报警,期望是,重启服务阶段不进行报警,大佬们有好的思路吗

    11 条回复    2025-01-21 09:27:06 +08:00
    2Nfree
        1
    2Nfree  
       2 天前
    elastalert2 的日志告警原理上就是查询 ES ,直接设置规则 query must_not 对应 timeout 的日志类别,如果要是要求更高级的日志告警还是推荐用 flink cep 去做
    Curiosity777
        2
    Curiosity777  
    OP
       2 天前
    @2Nfree 好的,只是想控制重启期间的 timeout ,正常的还是要的,cep 我去了解下,感谢您的宝贵回答
    2Nfree
        3
    2Nfree  
       2 天前
    @Curiosity777 #2 如果重启期间的 timeout 报错和正常的 timeout 的报错是一致的,那你这种需要监听日志上下文,如应用程序获取了 SIGNTEM 的信号,就发出一个应用被关闭的信号日志,然后通过窗口监听上文中有被关闭的信号再去屏蔽发版的 timeout 报错,但是我感觉这个需求有点伪需求的意思了,你知道他在发版了实际上就人工忽略就好了
    Curiosity777
        4
    Curiosity777  
    OP
       2 天前
    @2Nfree #3 好的,明白了,谢谢大佬
    NoKey
        5
    NoKey  
       2 天前
    咋区分到底是人工停机发版、重启,还是系统自动给 kill 了呢?直接认为忽略啊,x 点到 x 点发版,此时间范围内有运维组跟踪,收到消息请忽略,巴拉巴拉的
    FarmerChillax
        6
    FarmerChillax  
       2 天前
    是不是应该考虑解决方向「为什么重启期间有告警?」
    - 是不是没有最好流量无损?
    FarmerChillax
        7
    FarmerChillax  
       2 天前
    @FarmerChillax 最好 -> 做好
    codepark
        8
    codepark  
       2 天前
    2Nfree
        9
    2Nfree  
       2 天前
    @NoKey #5 确实没有考虑到这个,所以感觉这个有点伪需求的意思
    brianinzz
        10
    brianinzz  
       2 天前
    最近在做日志收集的选型所以 ELK 还是最优解吗? 还是现在有更好的方案
    yhl601125163
        11
    yhl601125163  
       1 天前
    @brianinzz doris
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1031 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 19:14 · PVG 03:14 · LAX 11:14 · JFK 14:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.