生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场景下锤炼系统,推进了产品的轮班制度,提升了云原生底座的稳定性和竞争力。
2021 年 12 月 7 日,由信通院主办、混沌工程实验室承办的“混沌工程技术沙龙-金融行业精品专场”沙龙在北京举办,来自阿里云的技术专家穹谷分享“从甲方到乙方,如何做好混沌工程的行业化落地”。
在软件架构治理的过程中,一个难点是当系统复杂度高到超出个体认知上限时,就很难看清系统问题全貌,很多不可预测的问题经常发生。混沌工程以实验的方式帮助开发团队快速找到系统弱点,提升对系统的认知,进而提升软件架构治理的效率。
在日益复杂的技术架构下,实现系统的反脆弱,成为了一个程序员向架构师提升之路上的必修课。
在分布式系统架构下,服务组件繁多且服务间的依赖错综复杂,很难评估单个故障对整个系统的影响,而且请求链路长,如果监控告警、日志记录等基础服务不完善会造成故障响应、故障定位问题难,所以如何构建一个高可用的分布式系统面临着很大挑战。
英文中的 chaos 的含义是混乱。这和中文的混沌是非常不同,现在这个概念被翻译成混沌,真是拉低了混沌这个词本身该有的寓意。而混沌工程是什么?在各个层面又要如何实现?其实不是工具有多难实现的问题。而是在具体的实现逻辑是什么?是否真实描述生产场景?
ChaosBlade-Operator 是 ChaosBlade 的 K8s 平台场景的实现。
本篇为混沌工程工具 ChaosBlade Opeator 系列的入门篇,主要介绍混动工程以及实验工具 ChaosBlade Operator。
本文介绍了一款K8s上的著名混沌工程框架LitmusChaos,从K8s平台和应用韧性的讨论入手,很深入地讨论了该框架的组成部分、实现原理、体系架构、实际用例、注意事项、生命周期、ChaosHub实验库、监测汇总等内容,也提供了详尽的快速入门和参与社区贡献的方法。
本篇为系列文章第二篇,将介绍 ChaosBlade-Operator 的安装方式以及基本概念,并进行一个简单的示例实验。
本篇为系列文章开篇,主要介绍混动工程以及混沌工程实验工具 ChaosBlade,后续会从实践的角度带领读者上手实践混沌工程,了解混沌工程的方法及原理。
本篇为系列文章第三篇,将使用 ChaosBlade Operator 对 Kubernetes Pod 进行混沌工程实验,实验包括:删除 POD 场景、Pod 网络延迟场景、Pod 网络丢包场景、Pod 域名访问异常场景和Pod 文件系统 I/O 故障场景。
作者:阿里巴巴|银桑
本篇为系列文章第四篇,将介绍使用 ChaosBlade Operator 对 Kubernetes Node 进行混沌工程实验,实验包括:Node CPU 负载场景、Node 网络延迟场景、Node 网络丢包场景、Node 域名访问异常场景、Node 磁盘填充场景、Node 杀指定进程和Node 挂起指定进程等。
随着微服务化、云原生、敏捷开发的快速普及,架构的容错性和高可用性都受到了前所未有的挑战。混沌工程应运而生,为提升分布式系统架构稳定性,带来强劲的“疫苗”!它通过在生产分布式系统上进行实验,来主动找出系统中的脆弱环节!
Litmus是进行云原生混沌工程的开源工具集。Litmus提供了一些工具来协调Kubernetes上的混乱情况,以帮助SRE发现其部署中的弱点。SRE最初在staging环境中使用Litmus进行混乱的实验,最终在production中使用它们来发现错误和漏洞。修复弱点可提高系统的弹性。
在日益复杂的技术架构下,实现系统的反脆弱,成为了一个程序员向架构师提升之路上的必修课。
本篇为系列文章第五篇,将介绍使用 ChaosBlade Operator 对 Kubernetes Container 进行混沌工程实验,实验包括:删除 container、container 内CPU负载场景、container 网络延迟场景、container 网络丢包场景、container 域名访问异常场景等。
今天来玩一下混沌工程的开源工具之一的 ChaosMesh。ChaosMesh 的目标是要做一个通用的混沌测试工具。
英文中的 chaos 的含义是混乱。这和中文的混沌是非常不同,现在这个概念被翻译成混沌,真是拉低了混沌这个词本身该有的寓意。而混沌工程是什么?在各个层面又要如何实现?其实不是工具有多难实现的问题。而是在具体的实现逻辑是什么?是否真实描述生产场景?
TC(traffic control) 是 Linux 中的流量控制工具。它是通过控制 netem 来实现的网络场景模拟。该工具是直接对物理网卡生效的,如果是逻辑网卡,则该控制无效。如果是用的虚拟机,可视虚拟网卡为物理网卡。
生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场景下锤炼系统,推进了产品的轮班制度,提升了云原生底座的稳定性和竞争力。
混沌工程师一门新兴的技术学科,它的初衷是通过实验性的方法,让人们建立复杂分布式系统能够在生产中抵御事件能力的信息。
在软件架构治理的过程中,一个难点是当系统复杂度高到超出个体认知上限时,就很难看清系统问题全貌,很多不可预测的问题经常发生。混沌工程以实验的方式帮助开发团队快速找到系统弱点,提升对系统的认知,进而提升软件架构治理的效率。
Redis 是一个开源高性能的 Key-Value 存储系统,虽然 Redis 本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的应急能力。
ChaosBlade-Operator 是 ChaosBlade 的 K8s 平台场景的实现。
今天我们来玩一下混沌工程的开源工具 ChaosToolkit ,它的目标是提供一个免费,开放,社区驱动的工具集以及api。
在分布式系统架构下,服务组件繁多且服务间的依赖错综复杂,很难评估单个故障对整个系统的影响,而且请求链路长,如果监控告警、日志记录等基础服务不完善会造成故障响应、故障定位问题难,所以如何构建一个高可用的分布式系统面临着很大挑战。
今天来玩一下混沌工程的开源工具之一的 ChaosMesh。ChaosMesh 的目标是要做一个通用的混沌测试工具。
TC(traffic control) 是 Linux 中的流量控制工具。它是通过控制 netem 来实现的网络场景模拟。该工具是直接对物理网卡生效的,如果是逻辑网卡,则该控制无效。如果是用的虚拟机,可视虚拟网卡为物理网卡。
ChaosBlade-Operator 是 ChaosBlade 的 K8s 平台场景的实现。
今天我们来玩一下混沌工程的开源工具 ChaosToolkit ,它的目标是提供一个免费,开放,社区驱动的工具集以及api。
在软件架构治理的过程中,一个难点是当系统复杂度高到超出个体认知上限时,就很难看清系统问题全貌,很多不可预测的问题经常发生。混沌工程以实验的方式帮助开发团队快速找到系统弱点,提升对系统的认知,进而提升软件架构治理的效率。
2021 年 12 月 7 日,由信通院主办、混沌工程实验室承办的“混沌工程技术沙龙-金融行业精品专场”沙龙在北京举办,来自阿里云的技术专家穹谷分享“从甲方到乙方,如何做好混沌工程的行业化落地”。
ChaosBlade-Operator 是 ChaosBlade 的 K8s 平台场景的实现。