3.2 日志与可观测性规范
一、适用范围与目标
- 适用于所有系统、服务、应用、网络等的日志采集、存储、分析与可观测性建设。
- 目标:实现日志全量采集、结构化、可追溯,提升系统可观测性和故障定位效率。
二、管理目标
- 日志采集全覆盖,格式统一,内容完整
- 日志归档、存储、查询高效,合规可追溯
- 可观测性体系完善,支持分布式追踪与指标分析
三、详细规范
- 日志格式:统一结构(如JSON/Logfmt),包含traceId、level、timestamp、业务标识等
- 日志采集:自动采集主机、服务、应用、网络等日志,支持多源接入
- 日志归档与存储:分级存储,定期归档、压缩、清理,满足合规要求
- 日志查询与分析:支持全文检索、标签、聚合分析,便于故障定位
- 分布式追踪:全链路traceId贯穿,支持OpenTelemetry、Jaeger等
- 指标与仪表盘:关键日志转化为指标,统一仪表盘可视化
四、操作流程
- 新增服务/应用 → 配置日志采集与格式 → 验证采集 → 上线
- 日志归档与清理 → 定期检查存储与合规性
- 故障定位 → 日志检索与分析 → 问题复盘
五、实际案例
- 生产环境服务异常,通过traceId快速定位到下游依赖超时
- 日志采集平台定期归档,满足等保合规要求
- 业务关键操作日志转化为Prometheus指标,仪表盘实时展示
六、日志字段模板
{
"timestamp": "2024-07-10T12:00:00Z",
"level": "INFO",
"traceId": "abc123",
"service": "order-api",
"message": "订单创建成功",
"userId": "u001",
"extra": {}
}
七、注意事项
- 禁止日志中输出敏感信息(如密码、密钥)
- 日志采集与存储需高可用,防止丢失
- 日志格式变更需评审,兼容历史数据
八、参考资料
- 《ELK 日志平台最佳实践》
- 《可观测性三板斧:日志、指标、追踪》
- 团队内部日志管理制度