产品动态丨同创永益 IStorM Chaos 混沌工程管理平台 v3.1.0发布

在这里插入图片描述
随着企业数字化转型快速发展、业务规模的扩大,分布式系统的组件之间交互变得更加复杂,涉及的网络调用、数据一致性、异步处理等问题大大增加。这种复杂性使得业务系统故障造成的经济损失不断攀升。混沌工程通过故障主动注入及风险点分析,能够帮助发现这些复杂系统稳定性的潜在问题,提升业务系统的稳定性和服务质量。

同创永益的IStorM Chaos混沌工程平台是一套完整的混沌工程体系化实践工具平台,提供成熟的专家实验场景、应用体检套餐和丰富的故障注入手段,通过对业务系统进行平台、中间件、数据库、应用等各类层次的故障注入演练,帮助企业发现更多未知的影响业务稳定性的隐患与问题,快速、有效的提升业务和系统稳定性。
在这里插入图片描述
IStorM Chaos 混沌工程管理平台具备以下主要功能:
分布式应用管理 – 应用视角的混沌工程演练
通过混沌演练提升分布式应用的稳定性。将分布式应用接入到平台后,可通过平台安装故障注入介质,下发故障,推荐测试场景,完成混沌实验,从应用维度分析稳定性。
实验观测 – 实验全程的观测能力
可扩展指标库,可以通过界面直接对接Promethus、Zabbix、Influxdb中的监控指标;平台支持配置应用可视化的实验指标观测面板,以及展示可视化的实验流程进度、实验结果分析、实验缺陷统计。
流量注入管理 – 发现业务链路风险点
通过配置应用业务链路和业务指标,可清晰明了地看到服务调用链路以及其相应调用状态、调用时延等指标,快速定位链路异常点,发现服务性能瓶颈点,了解其服务上下游调用关系,从全局的视野观察和保障服务运营。
常规实验 – 灵活的执行方式和过程控制
基于流程引擎的场景编排,支持并行、串行的组合,支持实验计划的手动执行、周期执行、随机自动执行以及自动执行体检套餐的流程定义,实验过程灵活可控,可随时终止演练。
混沌体检 – 自动化的应用稳定性缺陷排查
基于混沌教练的精心设计体检套餐,通过极简的配置,对已上线或即将上线的业务进行快速体检,验证系统和业务的稳定性,快速提升业务的数字韧性,保障连续性满足业务需求。
情景实验 – 支持特定场景的混沌演练
提供多种有针对性的情景化实验,包括风险探索实验、强弱依赖实验、故障复现实验,与应急平台或灾备平台结合的应急实验、容灾切换实验及红蓝攻防实验。
具体升级内容

新增功能

新增项目管理功能,支持项目级别的数据权限隔离;支持配置项目成员在混沌实验中的职责权限,项目管理员和成员的权限可灵活配置

新增应用管理功能,以应用维度进行实验和分析应用稳定性,支持应用拓扑展示、流量配置、稳态配置、介质管理、防护配置、稳定性分析展示、可导出应用维度的稳定性报告,全面分析影响业务系统稳定性的风险点

新增缺陷管理功能,对常规实验、体检实验、情景实验中检测出的缺陷详情、修复进度进行跟踪管理

介质管理新增介质升降级、介质上传、介质在线、离线状态检测功能

新增混沌体检实验,总结混沌演练场景经验形成有针对性的体检套餐,支持针对中间件或数据库推荐相应的专家场景;可对业务系统进行一键自动化体检,支持体检过程中各个实验场景的演练可视化,实验结束后可生成该业务系统的体检报告

新增风险探索实验,可预设应用关联故障的风险等级和发生频率,实验启动后自动对业务系统进行风险探索实验,并将缺陷上报到故障库

新增生产故障复现实验,利用生成故障发生时的指标与故障复现实验的指标进行数据拟合分析,给出数据拟合度,协助推断并确认出已发生的具体故障

新增通用类原子故障的生效判断脚本和恢复判断脚本。可在实验执行和恢复过程中观测到故障注入后是否生效、故障恢复后是否清除

新增红蓝对抗情景实验,可从混沌平台对业务系统进行故障注入并触发应急实验,联动应急平台,进行应急流程处理后清除故障,恢复业务
在这里插入图片描述
k8s集群Agent新增支持以非常驻进程运行,按需启动Agent。适合节点数较多的集群,有效降低资源占用

主机类介质新增流程处理接口,便于对接第三方自动化运维平台下发和执行Agent

增加对OpenShift 4.7集群环境的适配

功能升级

增强实验观测能力,应用拓扑功能可自动感知Kubernetes上部署的应用服务并绘制拓扑图;观测面板功能内嵌Grafana,支持对Grafana面板组件管理

优化实验执行流程,可支持在同一个实验场景中配置Kubernetes故障和主机故障混编执行。增强场景的适配能力,对同时部署在云上和云下的业务系统可配置一个实验场景进行混沌演练

增强实验前后应用的稳态状态判断,直观地判断业务系统定义的稳态指标在故障注入前和恢复后是否达到稳态

故障执行框架重构,使用linux cgroup/namespace等底层技术优化故障注入逻辑,支持故障执行状态全程可视化(实验前、实验中、实验结束、实验过程故障注入和恢复事件等)

增加容器运行时自适应,可在安装时自动匹配集群的容器运行时

增加主机介质心跳机制,可检测主机介质离线、在线状态。手动安装或者第三方自动化运维平台安装的介质,状态也可在平台正常展示

常规实验执行页面、预览页面增加实验进度条和实验信息,更直观展示实验执行进度

在常规实验执行页面、结果页面增加实验执行状态和故障执行步骤以时间流方式展示,丰富页面展现形式

常规实验执行页面,新增实验节点与指标变化联动,指标图中展示节点的开始时间、结束时间,可方便观测故障注入时间节点的指标变化区间

新增时间偏移、指定进程限制线程数、指定进程夯住、文件系统 INODE超限、文件替换等故障

优化主机类故障执行流程,减少主机类故障执行流程卡顿

分布式任务调度支持PowerJob

同创永益简介

北京同创永益科技发展有限公司成立于2009年,是国家高新技术企业、工信部专精特新“小巨人”企业、信创工委会技术活动单位、中国信通院混沌工程实验室副理事长单位。公司深耕企业用户数字韧性服务,业务覆盖灾难恢复、业务连续性、IT应急管理、容量管理、混沌工程等产品和解决方案,拥有自主知识产权和全栈服务能力,致力于帮助客户建设数字化系统的全领域韧性体系。

内容概要:本文档主要介绍了Intel Edge Peak (EP) 解决方案,涵盖从零到边缘高峰的软件配置和服务管理。EP解决方案旨在简化客户的入门门槛,提供一系列工具和服务,包括Edge Software Provisioner (ESP),用于构建和缓存操作系统镜像和软件栈;Device Management System (DMS),用于远程集群或本地集群管理;以及Autonomous Clustering for the Edge (ACE),用于自动化边缘集群的创建和管理。文档详细描述了从软件发布、设备制造、运输、安装到最终设备激活的全过程,并强调了在不同应用场景(如公共设施、工业厂房、海上油井和移动医院)下的具体部署步骤和技术细节。此外,文档还探讨了安全设备注册(FDO)、集群管理、密钥轮换和备份等关键操作。 适合人群:具备一定IT基础设施和边缘计算基础知识的技术人员,特别是负责边缘设备部署和管理的系统集成商和运维人员。 使用场景及目标:①帮助系统集成商和客户简化边缘设备的初始配置和后续管理;②确保设备在不同网络环境下的安全启动和注册;③支持大规模边缘设备的自动化集群管理和应用程序编排;④提供详细的密钥管理和集群维护指南,确保系统的长期稳定运行。 其他说明:本文档是详细描述了Edge Peak技术及其应用案例。文档不仅提供了技术实现的指导,还涵盖了策略配置、安全性和扩展性的考虑,帮助用户全面理解和实施Intel的边缘计算解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

同创永益

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值