Bootstrap

运维数字化

引言

最近和一些朋友聊起运维的未来和发展,大家很担心在云计算时代下,运维工作一方面会逐步被自动化和智能化取代,一方面随着年龄增长竞争力在减弱。很现实的问题,我也基于这些年在运维工作的经验,和大家聊聊运维数字化的转型

数字化运维

首先什么是数字化,简单点就是没有纸质的,全部通过 信息/流程/报表形式进行程序化的数据交换。做过运维的同学会会发现,运维有着天然的数字基因,日志/监控/大数据/运维平台/发布管理/CMDB。在数字化转型的大趋势下,运维更是要拥抱数据。一切皆数据

日志驱动

1.日志无价

日常运维过程,我们有大量的日志,包括 业务日志,前端日志,后端日志,APM日志,监控数据,安全日志,流水线日志等等。

运维应该思考如何充分利用日志提升运维的价值。

一个基于日志的运维平台

2.规则化

日志+规则agent+告警平台,实现:分单,现场快照,诊断分析,动作。

可以参考开源告警规则,针对不同日志开发不同规则告警。像 zabbix, Prometheus, open-falcon都有告警规则设置,也可以看一些开源的规则引擎。

开源告警:

规则引擎:

3.工单化

用工厂流水线视角看待研发过程,在流水线的每个环节采集日志,形成对应工单(需求工单,错误工单,告警工单,发布工单,故障工单等),工单最终目的:降本增效 知识沉淀。

错误日志工单闭环系统

项目管理

运维工作大体两类: 计划性工作+计划外工作。核心目标: 减少 计划外工作占比。

1.管理数字化

用项目管理的方式来做运维:把公司当作我们客户,借助项目管理方式,做好 目标、人员、进度、风险和成本 的管理。

项目分类:可以从 KPI提取项目类别,比如:效率提升/稳定性优化/成本优化/架构优化等。

立项方式:随时随地立项,只要可以归属某种分类,就可立项。方式包括自主立项或者推动研发部门作为项目负责人,成员可跨部门。

项目进度:负责人每日关注项目进度情况,识别风险。

2.车间主任

建议运维都去工厂车间去参观,了解一个物品是如何被生产出来。运维也一样,你把自己当作车间主任,产品研发是一个流水线。车间主任要关注:

3.不断降低例外

可以通过下面几个方式:

故障处理流程:

企业架构

学会用企业架构视角去解决运维问题。可以参考TOGAF的架构方案,了解公司的 业务场景、应用系统、数据方案和基础技术架构。站在CTO/CEO/CIO的角度思考,既要懂业务也要会管理。

运维是面向客户的最后一个触达点,必须熟悉业务流程和系统。因此我们:

TOGAF阶段方法:

个人比较喜欢这2本书:

总结

运维部门工作,是公司长期可持续发展的基石。持续保证业务可靠性,是公司业务对外最后的守护者。作为运维从业者,应从公司角度和企业目标去做事情。

最后送一个寓言故事给大家:

两个工人一起在工地里搬石头,很累,汗流浃背。

一位老者过来问之:你们在干嘛?

一人回答说:在搬石头。

另一人回答说:在修教堂。

十年后:

回答在搬石头的人依然在搬石头,唯一不变的是背有点驮了。

而另一个回答在修教堂的人已经成了一个令人尊敬的牧师了。

运维工作是盖教堂。