SRE(Site Reliability Engineering)

团队合作

牵涉开发团队,运营团队,财务团队,IT 网络

向上汇报

服务水平和目标

得有一套自说自通的服务标准,如故障等级的划分,来表达团队的服务水平

得有对外调研的服务质量的反馈,来表达和迭代团队的服务目标

事件调查和跟踪

事件可以是普通的运维事件,怎么跟踪可能就牵涉到工单,举一个例子就是变更操作的记录跟踪

事件也会是故障事件,调查就是要查清楚此次故障的原因,影响范围,规避措施,归档记录

管理事件

监控一切

监控是一切线上运维的必要产品,怎么监控,监控什么,监控指标怎么定义,已经监控故障发送和回馈

持续待命支持

这里也许需要一个 NOC 团队做 24H 的全天候支持

自动化一切

操作是否平台化或者更进一步的自动化 监控是否自动化 日常的服务支持是否自动化,怎么做自动化或者简单点的平台化

上次更新:
贡献者: kongzZ