SRE(Site Reliability Engineering)

团队合作

牵涉开发团队，运营团队，财务团队，IT 网络

向上汇报

得有一套自说自通的服务标准，如故障等级的划分，来表达团队的服务水平

得有对外调研的服务质量的反馈，来表达和迭代团队的服务目标

事件可以是普通的运维事件，怎么跟踪可能就牵涉到工单，举一个例子就是变更操作的记录跟踪

事件也会是故障事件，调查就是要查清楚此次故障的原因，影响范围，规避措施，归档记录

监控是一切线上运维的必要产品，怎么监控，监控什么，监控指标怎么定义，已经监控故障发送和回馈

这里也许需要一个 NOC 团队做 24H 的全天候支持

操作是否平台化或者更进一步的自动化监控是否自动化日常的服务支持是否自动化，怎么做自动化或者简单点的平台化