Chaos Mesh 工作流中自定义任务的使用详解

瞿格女

于 2025-06-06 09:03:45 发布

阅读量221

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01192/article/details/148464749

Chaos Mesh 工作流中自定义任务的使用详解

chaos-mesh Chaos Mesh 是一个云原生混沌工程平台，用于测试、故障注入和混沌工程。 * 用于混沌工程、故障注入和流量管理、支持 Prometheus 和 Grafana。 * 有什么特点：云原生混沌工程平台、支持 Prometheus 和 Grafana、故障注入和流量管理。项目地址: https://gitcode.com/gh_mirrors/ch/chaos-mesh

概述

Chaos Mesh 是一个强大的云原生混沌工程平台，其工作流功能允许用户编排复杂的混沌实验场景。本文将深入解析工作流中自定义任务（Custom Task）的使用方法，通过一个典型示例展示如何构建条件分支、执行不同混沌实验以及处理失败场景。

工作流核心结构

工作流由多个模板（template）组成，每个模板代表一个可执行单元。示例中展示了四种模板类型：

入口任务（Task类型）
网络混沌实验（NetworkChaos类型）
压力混沌实验（StressChaos类型）
失败处理任务（Task类型）

自定义任务详解

1. 入口任务配置

- name: the-entry
  templateType: Task
  task:
    container:
      name: main-contaienr
      image: busybox
      command:
        - echo
        - branch-b

这个入口任务使用busybox容器执行简单的echo命令，输出"branch-b"。在实际应用中，这个任务可以替换为任何自定义逻辑，比如：

检查系统状态
验证前置条件
执行自定义脚本

2. 条件分支设计

conditionalBranches:
  - target: workflow-stress-chaos
    expression: 'exitCode == 0 && stdout == "branch-a"'
  - target: workflow-network-chaos
    expression: 'exitCode == 0 && stdout == "branch-b"'
  - target: on-failed
    expression: 'exitCode != 0'

条件分支是工作流的核心控制逻辑，基于以下因素决定执行路径：

exitCode：任务执行返回码
stdout：任务标准输出内容

示例中定义了三种分支情况：

输出为"branch-a"且成功时 → 执行CPU压力测试
输出为"branch-b"且成功时 → 执行网络延迟注入
任何失败情况 → 执行失败处理流程

3. 混沌实验模板

网络延迟注入

- name: workflow-network-chaos
  templateType: NetworkChaos
  deadline: 20s
  networkChaos:
    direction: to
    action: delay
    mode: all
    selector:
      labelSelectors:
        "app": "hello-kubernetes"
    delay:
      latency: "90ms"
      correlation: "25"
      jitter: "90ms"

配置说明：

对标签为app: hello-kubernetes的所有Pod生效
注入90ms的网络延迟
设置25%的延迟相关性
添加90ms的延迟抖动

CPU压力测试

- name: workflow-stress-chaos
  templateType: StressChaos
  deadline: 20s
  stressChaos:
    mode: one
    selector:
      labelSelectors:
        "app": "hello-kubernetes"
    stressors:
      cpu:
        workers: 1
        load: 20
        options: [ "--cpu 1", "--timeout 600" ]

配置说明：

对标签为app: hello-kubernetes的任意一个Pod生效
创建1个工作线程
施加20%的CPU负载
设置600秒的超时时间

4. 失败处理机制

- name: on-failed
  templateType: Task
  task:
    container:
      name: main-contaienr
      image: curlimages/curl
      command:
        - curl
        - -XPOST
        - -d
        - k1=v1&k2=v2
        - https://jsonplaceholder.typicode.com/posts

失败处理是生产环境中的重要保障，示例展示了如何：