3.1 监控与告警规范

一、适用范围与目标

  • 适用于所有主机、服务、网络、存储、应用等的监控与告警管理。
  • 目标:实现全方位监控、及时告警、快速响应,保障系统稳定运行。

二、管理目标

  1. 监控覆盖全面,指标合理,告警及时准确
  2. 告警分级响应,闭环处理,定期复盘
  3. 监控与告警配置标准化、自动化、可追溯

三、详细规范

  • 监控项:主机(CPU、内存、磁盘、网络)、服务可用性、应用性能、业务指标等
  • 指标采集:统一采集方式(如Prometheus、Zabbix),数据实时上报
  • 告警规则:多维度阈值,支持静态/动态阈值,避免误报/漏报
  • 告警分级:P1(致命)、P2(严重)、P3(一般),不同级别响应时限与流程
  • 通知方式:邮件、IM、短信等多渠道,7x24小时值班响应
  • 自愈机制:关键告警支持自动化自愈脚本
  • 告警闭环:处理结果需记录,定期复盘与优化

四、操作流程

  1. 新增监控项 → 配置采集与告警 → 测试验证 → 上线
  2. 告警触发 → 通知责任人 → 响应与处理 → 记录与关闭
  3. 定期复盘 → 优化监控与告警规则

五、实际案例

  • 生产数据库CPU使用率>90%,触发P2告警,10分钟内响应,30分钟内处理恢复
  • Web服务不可用,自动触发重启脚本,业务恢复后告警关闭
  • 定期复盘发现某告警频繁误报,优化阈值与采集方式

六、告警处理记录模板

# 告警处理记录
- 告警编号:
- 发生时间:
- 影响范围:
- 告警级别:
- 处理人:
- 处理过程:
- 恢复时间:
- 复盘与改进:

七、注意事项

  • 监控项需定期评审,避免遗漏与冗余
  • 告警需闭环处理,严禁“无主”告警
  • 监控与告警配置变更需审批与记录

八、参考资料

  • 《Prometheus 监控与告警实践》
  • 《阿里云监控与告警最佳实践》
  • 团队内部监控运维手册