3.2 日志与可观测性规范

一、适用范围与目标

  • 适用于所有系统、服务、应用、网络等的日志采集、存储、分析与可观测性建设。
  • 目标:实现日志全量采集、结构化、可追溯,提升系统可观测性和故障定位效率。

二、管理目标

  1. 日志采集全覆盖,格式统一,内容完整
  2. 日志归档、存储、查询高效,合规可追溯
  3. 可观测性体系完善,支持分布式追踪与指标分析

三、详细规范

  • 日志格式:统一结构(如JSON/Logfmt),包含traceId、level、timestamp、业务标识等
  • 日志采集:自动采集主机、服务、应用、网络等日志,支持多源接入
  • 日志归档与存储:分级存储,定期归档、压缩、清理,满足合规要求
  • 日志查询与分析:支持全文检索、标签、聚合分析,便于故障定位
  • 分布式追踪:全链路traceId贯穿,支持OpenTelemetry、Jaeger等
  • 指标与仪表盘:关键日志转化为指标,统一仪表盘可视化

四、操作流程

  1. 新增服务/应用 → 配置日志采集与格式 → 验证采集 → 上线
  2. 日志归档与清理 → 定期检查存储与合规性
  3. 故障定位 → 日志检索与分析 → 问题复盘

五、实际案例

  • 生产环境服务异常,通过traceId快速定位到下游依赖超时
  • 日志采集平台定期归档,满足等保合规要求
  • 业务关键操作日志转化为Prometheus指标,仪表盘实时展示

六、日志字段模板

{
  "timestamp": "2024-07-10T12:00:00Z",
  "level": "INFO",
  "traceId": "abc123",
  "service": "order-api",
  "message": "订单创建成功",
  "userId": "u001",
  "extra": {}
}

七、注意事项

  • 禁止日志中输出敏感信息(如密码、密钥)
  • 日志采集与存储需高可用,防止丢失
  • 日志格式变更需评审,兼容历史数据

八、参考资料

  • 《ELK 日志平台最佳实践》
  • 《可观测性三板斧:日志、指标、追踪》
  • 团队内部日志管理制度