8.5 值班手册
一、适用范围与目标
- 适用于运维团队的值班排班、告警响应、故障处理等日常运维工作。
- 目标:建立标准化的值班流程,保障 7x24 小时运维响应,提升故障处理效率。
二、管理目标
- 值班排班规范,职责明确,交接顺畅
- 告警响应及时,分级处理,闭环管理
- 故障处理流程标准化,快速恢复业务
- 值班记录完整,便于复盘和改进
三、详细规范
值班排班与职责
- 排班方式:7x24 小时轮班,每班 1-2 人
- 值班时间:
- 白班:09:00 - 18:00
- 晚班:18:00 - 次日 09:00
- 周末班:全天
- 值班职责:
- 监控告警响应和处理
- 故障排查和恢复
- 日常巡检执行
- 变更操作执行(如需要)
- 值班记录填写
- 值班要求:
- 保持通讯畅通(电话、IM)
- 及时响应告警(P1 5 分钟内,P2 15 分钟内)
- 重大事件及时上报
告警响应规范
- 告警分级:
- P1(致命):业务完全不可用,需立即处理,响应时间 5 分钟
- P2(严重):业务部分不可用或性能严重下降,响应时间 15 分钟
- P3(一般):业务可正常使用但存在异常,响应时间 1 小时
- P4(提醒):信息类告警,无需立即处理
- 处理流程:
- 接警 → 收到告警通知
- 研判 → 分析告警原因和影响范围
- 处置 → 执行处理措施
- 验证 → 验证处理效果
- 记录 → 记录处理过程和结果
- 关闭 → 关闭告警工单
- 升级机制:
- P1 告警 15 分钟内未解决,需升级通知主管
- P2 告警 1 小时内未解决,需升级通知主管
- 重大故障需通知技术专家和业务负责人
交接流程
- 交接时间:每班次开始前 15 分钟进行交接
- 交接内容:
- 未处理的告警和工单
- 进行中的变更和操作
- 已知问题和风险
- 待办事项
- 重要通知和变更
- 交接方式:
- 面对面交接(优先)
- 电话/视频交接
- 交接记录系统确认
- 交接记录:填写交接记录表,双方签字确认
四、操作流程
值班开始流程
- 查看交接记录 → 了解上一班次情况
- 检查告警系统 → 确认告警系统正常
- 检查监控面板 → 确认系统状态正常
- 确认联系方式 → 确认通讯工具正常
- 开始值班 → 正式进入值班状态
告警处理流程
- 接收告警 → 收到告警通知(邮件/短信/IM)
- 确认告警 → 在告警系统中确认收到
- 分析问题 → 查看监控数据,分析问题原因
- 评估影响 → 评估问题影响范围
- 执行处理 → 执行处理措施(重启服务、扩容、回滚等)
- 验证效果 → 验证处理效果,确认业务恢复
- 记录归档 → 记录处理过程和结果
- 关闭告警 → 在告警系统中关闭告警
交接班流程
- 准备交接 → 整理本班次工作内容
- 填写交接记录 → 填写交接记录表
- 面对面交接 → 与下一班次值班人员交接
- 确认交接 → 双方确认交接内容
- 签字确认 → 在交接记录表上签字
- 完成交接 → 正式完成交接
五、实际案例
案例1:P1 告警快速响应
- 场景:生产环境数据库连接池耗尽,业务不可用
- 时间线:
- 00:05:收到 P1 告警
- 00:06:值班人员确认告警
- 00:08:分析问题,确认为连接池耗尽
- 00:10:执行扩容操作
- 00:15:验证业务恢复
- 00:20:记录处理过程
- 结果:15 分钟内恢复业务,符合 P1 响应要求
- 亮点:快速响应,准确判断,及时恢复
案例2:P2 告警升级处理
- 场景:Web 服务响应时间异常,部分用户受影响
- 时间线:
- 14:30:收到 P2 告警
- 14:35:值班人员确认告警
- 14:45:分析问题,确认为负载过高
- 15:00:执行扩容操作
- 15:15:问题未完全解决,升级通知主管
- 15:30:主管和技术专家介入
- 16:00:问题解决,业务恢复
- 结果:1.5 小时内解决问题,符合升级机制
- 亮点:及时升级,团队协作,问题解决
案例3:交接班顺畅
- 场景:晚班向白班交接
- 交接内容:
- 未处理告警:1 个 P3 告警(证书即将过期)
- 进行中变更:无
- 已知问题:磁盘空间使用率 85%,需关注
- 待办事项:证书续期申请
- 交接方式:面对面交接 + 交接记录表
- 结果:交接顺畅,白班人员清楚了解情况
- 亮点:交接内容完整,记录清晰
六、操作模板
值班交接记录表
# 值班交接记录表
## 基本信息
- 交接时间:2024-01-15 08:45
- 交班人员:张三
- 接班人员:李四
- 值班时段:2024-01-14 18:00 - 2024-01-15 09:00
## 未处理告警
| 告警编号 | 告警级别 | 告警内容 | 处理状态 | 备注 |
|---------|---------|---------|---------|------|
| ALERT-001 | P3 | 证书即将过期 | 待处理 | 已申请续期 |
## 进行中变更
| 变更编号 | 变更内容 | 当前状态 | 预计完成时间 |
|---------|---------|---------|-------------|
| 无 | - | - | - |
## 已知问题和风险
1. 磁盘空间使用率 85%,需关注
2. 数据库连接池使用率较高,需监控
## 待办事项
1. 证书续期申请(预计 1 月 20 日完成)
2. 磁盘清理计划(预计 1 月 18 日执行)
## 重要通知
- 无
## 交接确认
- 交班人员签字:张三
- 接班人员签字:李四
- 交接时间:2024-01-15 08:50
告警处理记录模板
# 告警处理记录
## 告警信息
- 告警编号:ALERT-001
- 告警级别:P1
- 告警时间:2024-01-15 00:05
- 告警内容:数据库连接池耗尽
- 影响范围:所有业务不可用
## 处理过程
1. 00:06 确认告警,开始分析
2. 00:08 确认为连接池耗尽,执行扩容
3. 00:10 扩容完成,等待生效
4. 00:15 验证业务恢复
5. 00:20 记录处理过程
## 处理结果
- 处理状态:已解决
- 恢复时间:2024-01-15 00:15
- 处理时长:10 分钟
- 业务影响:15 分钟不可用
## 根本原因
数据库连接池配置过小,无法应对业务高峰
## 改进措施
1. 调整连接池配置
2. 增加连接池监控
3. 优化数据库连接使用
## 处理人员
- 值班人员:张三
- 处理时间:2024-01-15 00:05-00:20
常用联系方式
# 常用联系方式
## 运维团队
- 运维主管:13800138000
- 技术专家:13900139000
- 值班电话:400-xxx-xxxx
## 业务团队
- 业务负责人:13700137000
- 产品经理:13600136000
## 供应商
- 云服务商:400-xxx-xxxx
- 硬件供应商:400-xxx-xxxx
## 应急联系
- 安全团队:security@example.com
- 法务团队:legal@example.com
七、注意事项
- 值班期间保持通讯畅通:电话、IM 等通讯工具需保持畅通
- 交接必须有记录:所有交接需有记录,避免遗漏
- 重大事件需及时汇报:P1 告警、重大故障需及时上报主管
- 告警需闭环处理:所有告警需处理完成并记录
- 值班记录需完整:值班期间所有操作需记录
- 定期复盘改进:定期复盘值班工作,持续改进
八、参考资料
- 《企业 IT 值班管理制度》
- 《运维告警与应急响应白皮书》
- 《故障处理最佳实践》
- 团队内部值班手册模板