安全生产

避免造成损失的手段、流程、文化,控制风险,保障业务稳定

组织&团队

谁来做

如何支持

责任

责任不是头上的刀,而是驱动力

架构师的责任与边界:

安全生产说简单也简单:没什么技术含量,说难也难:这是一个持久的事,需要各种各样的流程支撑,有着各种压力,消耗着你的激情

应急处理:

执行

问题发现

及时发现、准确发现、聚焦问题、信息完整

基于异常的发现

日志抓取线上异常,导入监控系统,最后报警触达

通过异常可以一定程度防故障,报警的原则要保障能使人员敏感,过于频繁的报警会使人无视,报警的触达范围要确保相关人能知悉,但不要无谓的扩散到很多人

红线预警

红线(不可逾越的界限):

为了监控红线,需要针对红线做好日志买点,进行定向监控,最后故障预警

基于数据发现

问题不会反映在异常上

像是统计报表的错误、数据的一致性问题等

基于日志发现

根据日志发现异常情况下的行为及模式,从而推动修复

基于反馈发现

最常规的问题来源

异常管控

收敛、保护

异常发现

异常控制

测试

全链路回归

一旦发布后系统的行为就与线下不一样 出问题

回归的内容
回归的时机

单测

自动化测试

价值:

不足:

研发体系

变更 -> 准入 -> 发布 -> 灰度 -> 生产

约束与管控

变更流程管控

变更

风险

人员

准入体系

作用:

准入范围

灰度发布

工单体系&RPA

RPA完成了工单流程中的部分操作

工单能将业务流程防错防偏,标准化流程,也能记录流程中的信息

现阶段使用的一些RPA智能助手:

监控体系

日常化建设

全链路压测

目标:

流程建设:压测流程、影响通知、预案、复盘

工具建设:场景拆解、数据生产、链路压测

文化建设:宣讲培训分享竞赛

单点压测

预案

问题预案

预案设定 -> 线上问题 -> 报警 -> 预案执行(手动或自动) -> 止血 -> 恢复

预案无法解决全部问题,执行后需要人进行确认,自动化的预案可以降低人力投入成本,自动化的预案拥有一定风险,根据问题的不断积累发展新预案

日常预案

预案设定 -> 指标变化 -> 预案执行 -> 线上调整 -> 线上恢复

故障演练

快速恢复

所需能力:

攻防演练

在攻击中学习防守

情报收集

据点建立

横向移动

防守

高可用

度量

使用指标为目标提供可量化参考,驱动团队迭代进步、文化沉淀

针对于得分进行差异化,以期分辨指标的重要程度

研发

研发流程 -> 得到研发数据(研发质量、产品质量、研发效能) -> 人员成长,质量提升

文化

打造:从实践到案例,从案例到实践

案例是一种文化的共建机制,可以使团队成员自驱,并影响他人,从而沉淀出文化,并能将文化回到实践中去

奖惩: