3.1 监控与告警规范
一、适用范围与目标
- 适用于所有主机、服务、网络、存储、应用等的监控与告警管理。
- 目标:实现全方位监控、及时告警、快速响应,保障系统稳定运行。
二、管理目标
- 监控覆盖全面,指标合理,告警及时准确
- 告警分级响应,闭环处理,定期复盘
- 监控与告警配置标准化、自动化、可追溯
三、详细规范
- 监控项:主机(CPU、内存、磁盘、网络)、服务可用性、应用性能、业务指标等
- 指标采集:统一采集方式(如Prometheus、Zabbix),数据实时上报
- 告警规则:多维度阈值,支持静态/动态阈值,避免误报/漏报
- 告警分级:P1(致命)、P2(严重)、P3(一般),不同级别响应时限与流程
- 通知方式:邮件、IM、短信等多渠道,7x24小时值班响应
- 自愈机制:关键告警支持自动化自愈脚本
- 告警闭环:处理结果需记录,定期复盘与优化
四、操作流程
- 新增监控项 → 配置采集与告警 → 测试验证 → 上线
- 告警触发 → 通知责任人 → 响应与处理 → 记录与关闭
- 定期复盘 → 优化监控与告警规则
五、实际案例
- 生产数据库CPU使用率>90%,触发P2告警,10分钟内响应,30分钟内处理恢复
- Web服务不可用,自动触发重启脚本,业务恢复后告警关闭
- 定期复盘发现某告警频繁误报,优化阈值与采集方式
六、告警处理记录模板
# 告警处理记录
- 告警编号:
- 发生时间:
- 影响范围:
- 告警级别:
- 处理人:
- 处理过程:
- 恢复时间:
- 复盘与改进:
七、注意事项
- 监控项需定期评审,避免遗漏与冗余
- 告警需闭环处理,严禁“无主”告警
- 监控与告警配置变更需审批与记录
八、参考资料
- 《Prometheus 监控与告警实践》
- 《阿里云监控与告警最佳实践》
- 团队内部监控运维手册