一、写在前面
1、混沌是什么?
混沌工程(Chaos Engineering)的概念由 Netflix 在 2010 年提出,通过主动向系统中引入异常状态,并根据系统在各种压力下的行为表现确定优化策略,是保障系统稳定性的新型手段。
混沌工程是一门在分布式系统上进行实验的学科,目的是建立人们对于复杂系统在生产环境中抵御突发事件的信息。
2、为什么要做混沌?
混沌工程通过有意地引入故障、异常或不确定性的条件,以模拟真实世界中的不完美环境。其核心思想是通过主动引入故障和异常情况,逐步验证和提升系统的健壮性,从而增加系统在面对真实世界中的复杂环境时的稳定性和可靠性。其目的是识别潜在的系统弱点,并改进应用系统的健壮性和恢复能力,减少系统故障造成的影响,并提供更好的用户体验。
3、混沌的原则
混沌工程主要遵循以下原则:
-
假设清晰性(Assumption-Driven):明确系统的行为和性能的关键假设。这些假设可以基于系统需求、设计决策或运行环境等方面。混沌工程的实验应着眼于验证或推翻这些假设。
-
实验的真实性(Experimentation):通过有意地注入故障、异常或不确定性的条件来模拟真实世界中的不完美环境。实验应该是可控和可重复的,以便在安全范围内进行测试和观察系统的响应。
-
最小化影响(Minimizing Blast Radius):实施混沌实验时需要注意最小化对生产环境和用户的负面影响。合理限制实验的范围和影响范围,并使用适当的风险管理方法保护关键业务功能。
-
监测和度量(Monitoring and Measurement):实验期间需要密切系统报警机制。使用监控工具和指标来收集实验数据,以便评估系统的稳定性和弹性。
-
分析和学习(Analyzing and Learning):对实验结果进行复盘,并从中提取经验教训。确定问题的

本文介绍了京东零售的混沌工程实践,包括混沌工程的概念、原则,以及其在京东大促中的应用和发展。文章强调了混沌工程与传统测试的区别,通过主动引入故障来增强系统的稳定性、可靠性和弹性。京东混沌工程在实战中不断升级,持续改进以应对复杂系统挑战。
最低0.47元/天 解锁文章
2271

被折叠的 条评论
为什么被折叠?



