SRE(Site Reliability Engineering)
团队合作
牵涉开发团队,运营团队,财务团队,IT 网络
向上汇报
服务水平和目标
得有一套自说自通的服务标准,如故障等级的划分,来表达团队的服务水平
得有对外调研的服务质量的反馈,来表达和迭代团队的服务目标
事件调查和跟踪
事件可以是普通的运维事件,怎么跟踪可能就牵涉到工单,举一个例子就是变更操作的记录跟踪
事件也会是故障事件,调查就是要查清楚此次故障的原因,影响范围,规避措施,归档记录
管理事件
监控一切
监控是一切线上运维的必要产品,怎么监控,监控什么,监控指标怎么定义,已经监控故障发送和回馈
持续待命支持
这里也许需要一个 NOC 团队做 24H 的全天候支持
自动化一切
操作是否平台化或者更进一步的自动化 监控是否自动化 日常的服务支持是否自动化,怎么做自动化或者简单点的平台化