8.5 值班手册

一、适用范围与目标

  • 适用于运维团队的值班排班、告警响应、故障处理等日常运维工作。
  • 目标:建立标准化的值班流程,保障 7x24 小时运维响应,提升故障处理效率。

二、管理目标

  1. 值班排班规范,职责明确,交接顺畅
  2. 告警响应及时,分级处理,闭环管理
  3. 故障处理流程标准化,快速恢复业务
  4. 值班记录完整,便于复盘和改进

三、详细规范

值班排班与职责

  • 排班方式:7x24 小时轮班,每班 1-2 人
  • 值班时间
    • 白班:09:00 - 18:00
    • 晚班:18:00 - 次日 09:00
    • 周末班:全天
  • 值班职责
    • 监控告警响应和处理
    • 故障排查和恢复
    • 日常巡检执行
    • 变更操作执行(如需要)
    • 值班记录填写
  • 值班要求
    • 保持通讯畅通(电话、IM)
    • 及时响应告警(P1 5 分钟内,P2 15 分钟内)
    • 重大事件及时上报

告警响应规范

  • 告警分级
    • P1(致命):业务完全不可用,需立即处理,响应时间 5 分钟
    • P2(严重):业务部分不可用或性能严重下降,响应时间 15 分钟
    • P3(一般):业务可正常使用但存在异常,响应时间 1 小时
    • P4(提醒):信息类告警,无需立即处理
  • 处理流程
    1. 接警 → 收到告警通知
    2. 研判 → 分析告警原因和影响范围
    3. 处置 → 执行处理措施
    4. 验证 → 验证处理效果
    5. 记录 → 记录处理过程和结果
    6. 关闭 → 关闭告警工单
  • 升级机制
    • P1 告警 15 分钟内未解决,需升级通知主管
    • P2 告警 1 小时内未解决,需升级通知主管
    • 重大故障需通知技术专家和业务负责人

交接流程

  • 交接时间:每班次开始前 15 分钟进行交接
  • 交接内容
    • 未处理的告警和工单
    • 进行中的变更和操作
    • 已知问题和风险
    • 待办事项
    • 重要通知和变更
  • 交接方式
    • 面对面交接(优先)
    • 电话/视频交接
    • 交接记录系统确认
  • 交接记录:填写交接记录表,双方签字确认

四、操作流程

值班开始流程

  1. 查看交接记录 → 了解上一班次情况
  2. 检查告警系统 → 确认告警系统正常
  3. 检查监控面板 → 确认系统状态正常
  4. 确认联系方式 → 确认通讯工具正常
  5. 开始值班 → 正式进入值班状态

告警处理流程

  1. 接收告警 → 收到告警通知(邮件/短信/IM)
  2. 确认告警 → 在告警系统中确认收到
  3. 分析问题 → 查看监控数据,分析问题原因
  4. 评估影响 → 评估问题影响范围
  5. 执行处理 → 执行处理措施(重启服务、扩容、回滚等)
  6. 验证效果 → 验证处理效果,确认业务恢复
  7. 记录归档 → 记录处理过程和结果
  8. 关闭告警 → 在告警系统中关闭告警

交接班流程

  1. 准备交接 → 整理本班次工作内容
  2. 填写交接记录 → 填写交接记录表
  3. 面对面交接 → 与下一班次值班人员交接
  4. 确认交接 → 双方确认交接内容
  5. 签字确认 → 在交接记录表上签字
  6. 完成交接 → 正式完成交接

五、实际案例

案例1:P1 告警快速响应

  • 场景:生产环境数据库连接池耗尽,业务不可用
  • 时间线
    • 00:05:收到 P1 告警
    • 00:06:值班人员确认告警
    • 00:08:分析问题,确认为连接池耗尽
    • 00:10:执行扩容操作
    • 00:15:验证业务恢复
    • 00:20:记录处理过程
  • 结果:15 分钟内恢复业务,符合 P1 响应要求
  • 亮点:快速响应,准确判断,及时恢复

案例2:P2 告警升级处理

  • 场景:Web 服务响应时间异常,部分用户受影响
  • 时间线
    • 14:30:收到 P2 告警
    • 14:35:值班人员确认告警
    • 14:45:分析问题,确认为负载过高
    • 15:00:执行扩容操作
    • 15:15:问题未完全解决,升级通知主管
    • 15:30:主管和技术专家介入
    • 16:00:问题解决,业务恢复
  • 结果:1.5 小时内解决问题,符合升级机制
  • 亮点:及时升级,团队协作,问题解决

案例3:交接班顺畅

  • 场景:晚班向白班交接
  • 交接内容
    • 未处理告警:1 个 P3 告警(证书即将过期)
    • 进行中变更:无
    • 已知问题:磁盘空间使用率 85%,需关注
    • 待办事项:证书续期申请
  • 交接方式:面对面交接 + 交接记录表
  • 结果:交接顺畅,白班人员清楚了解情况
  • 亮点:交接内容完整,记录清晰

六、操作模板

值班交接记录表

# 值班交接记录表

## 基本信息
- 交接时间:2024-01-15 08:45
- 交班人员:张三
- 接班人员:李四
- 值班时段:2024-01-14 18:00 - 2024-01-15 09:00

## 未处理告警
| 告警编号 | 告警级别 | 告警内容 | 处理状态 | 备注 |
|---------|---------|---------|---------|------|
| ALERT-001 | P3 | 证书即将过期 | 待处理 | 已申请续期 |

## 进行中变更
| 变更编号 | 变更内容 | 当前状态 | 预计完成时间 |
|---------|---------|---------|-------------|
| 无 | - | - | - |

## 已知问题和风险
1. 磁盘空间使用率 85%,需关注
2. 数据库连接池使用率较高,需监控

## 待办事项
1. 证书续期申请(预计 1 月 20 日完成)
2. 磁盘清理计划(预计 1 月 18 日执行)

## 重要通知
-## 交接确认
- 交班人员签字:张三
- 接班人员签字:李四
- 交接时间:2024-01-15 08:50

告警处理记录模板

# 告警处理记录

## 告警信息
- 告警编号:ALERT-001
- 告警级别:P1
- 告警时间:2024-01-15 00:05
- 告警内容:数据库连接池耗尽
- 影响范围:所有业务不可用

## 处理过程
1. 00:06 确认告警,开始分析
2. 00:08 确认为连接池耗尽,执行扩容
3. 00:10 扩容完成,等待生效
4. 00:15 验证业务恢复
5. 00:20 记录处理过程

## 处理结果
- 处理状态:已解决
- 恢复时间:2024-01-15 00:15
- 处理时长:10 分钟
- 业务影响:15 分钟不可用

## 根本原因
数据库连接池配置过小,无法应对业务高峰

## 改进措施
1. 调整连接池配置
2. 增加连接池监控
3. 优化数据库连接使用

## 处理人员
- 值班人员:张三
- 处理时间:2024-01-15 00:05-00:20

常用联系方式

# 常用联系方式

## 运维团队
- 运维主管:13800138000
- 技术专家:13900139000
- 值班电话:400-xxx-xxxx

## 业务团队
- 业务负责人:13700137000
- 产品经理:13600136000

## 供应商
- 云服务商:400-xxx-xxxx
- 硬件供应商:400-xxx-xxxx

## 应急联系
- 安全团队:security@example.com
- 法务团队:legal@example.com

七、注意事项

  • 值班期间保持通讯畅通:电话、IM 等通讯工具需保持畅通
  • 交接必须有记录:所有交接需有记录,避免遗漏
  • 重大事件需及时汇报:P1 告警、重大故障需及时上报主管
  • 告警需闭环处理:所有告警需处理完成并记录
  • 值班记录需完整:值班期间所有操作需记录
  • 定期复盘改进:定期复盘值班工作,持续改进

八、参考资料

  • 《企业 IT 值班管理制度》
  • 《运维告警与应急响应白皮书》
  • 《故障处理最佳实践》
  • 团队内部值班手册模板