

新闻资讯
技术百科解决告警疲劳关键在于让每条告警都“值得看”,需通过精准降噪(动态基线+时间窗口过滤)、聚合同类、抑制衍生、分级响应四步闭环实现。
解决告警疲劳,关键不是少发告警,而是让每条告警都“值得看”。核心在于过滤噪音、聚合同类、抑制衍生、分级响应——四步闭环缺一不可。
云原生环境里,用“CPU > 80%”这种固定规则,等于每天定时制造干扰。真实业务有峰谷(如大促流量翻倍)、有抖动(GC导致1秒内存飙升),静态阈值必然失灵。
predict_linear() 函数,自动学习过去7天同一时段的正常波动范围,告警只在显著偏离基线时触发avg_over_time(node_cpu_seconds_total{mode="idle"}[5m]) ,而非单点采样
当user-api的3个Pod同时内存超标,你不需要收到3条钉钉消息——你需要一条含实例列表、趋势图和一键跳转链接的通知。
group_by: ['alertname', 'service', 'environment'],确保同服务、同环境、同类型告警自动归并group_wait: 30s(收集新告警)、group_interval: 5m(同组再次通知间隔){{ $value | humanizePercentage }} 和 {{ $labels.instance }},让每条通知自带上下文,减少二次查证网络分区了,所有节点失联告警会瞬间刷屏;但真正该处理的,只有网络问题本身。低级告警必须被高级故障“压制”。
alertmanager.yml 中定义抑制规则:当 NetworkPartition 告警触发时,自动抑制所有 InstanceDown 和 NodeExporterDown
inhibit_rules:
- source_match:
alertname: NetworkPartition
severity: critical
target_match_re:
alertname: InstanceDown|NodeExporterDown
--log.level=debug 观察匹配行为所有告警一个铃声,等于没有铃声。必须按影响定级,并绑定不同通道、不同超时、不同责任人。
match: {severity="critical", team="paym
ent"} 直接路由至支付组PagerDutyinstance_id、availability_zone、近1小时指标折线图(Grafana snapshot link)