Kyverno性能测试框架：自定义场景构建-优快云博客

Kyverno性能测试框架：自定义场景构建

【免费下载链接】kyverno 一个Kubernetes原生的策略管理器，用于实施和强制执行策略。 - 功能：策略管理；安全策略执行；Kubernetes集群安全。 - 特点：与Kubernetes无缝集成；支持多种策略类型；易于使用；高度可定制。项目地址: https://gitcode.com/GitHub_Trending/ky/kyverno

你是否在Kubernetes集群中遇到过策略执行延迟、资源占用过高或报告生成缓慢的问题？作为Kubernetes原生的策略管理器，Kyverno在大规模集群中面临的性能挑战日益凸显。本文将带你深入了解Kyverno性能测试框架，通过自定义场景构建，精准定位性能瓶颈，优化策略执行效率。读完本文，你将能够：

搭建基于Kwok的高性能测试环境
设计符合真实业务场景的测试用例
量化分析Kyverno在不同策略组合下的性能表现
掌握大规模策略报告生成的优化技巧

测试框架架构解析

Kyverno性能测试框架基于Kwok（Kubernetes WithOut Kubelet）构建，通过模拟节点和工作负载，在单机环境中复现大规模集群场景。其核心组件包括：

mermaid

核心技术栈

组件	作用	版本要求
Kwok	模拟Kubernetes节点和Pod	v0.4.0+
K3d	提供轻量级Kubernetes集群	v5.4.9+
etcd	存储集群状态数据	v3.4.13+
Helm	部署Kyverno及监控组件	v3.8.0+
Prometheus	收集性能指标	v2.35.0+

环境快速搭建

前置依赖安装

首先安装etcd客户端工具，用于后续存储性能分析：

ETCD_VER=v3.4.13
GITHUB_URL=https://github.com/etcd-io/etcd/releases/download
curl -L ${GITHUB_URL}/${ETCD_VER}/etcd-${ETCD_VER}-linux-amd64.tar.gz -o /tmp/etcd-${ETCD_VER}-linux-amd64.tar.gz
tar xzvf /tmp/etcd-${ETCD_VER}-linux-amd64.tar.gz -C /usr/local/bin --strip-components=1
rm -f /tmp/etcd-${ETCD_VER}-linux-amd64.tar.gz

安装K3d以创建基础集群：

wget -q -O - https://raw.githubusercontent.com/k3d-io/k3d/main/install.sh | bash

Kwok集群部署

创建包含3个控制节点和15个代理节点的K3d集群，并配置etcd存储限制：

k3d cluster create scaling --servers 3 --agents=15 \
  --k3s-arg "--disable=metrics-server@server:*" \
  --k3s-node-label "ingress-ready=true@agent:*" \
  --k3s-arg "--etcd-arg=quota-backend-bytes=8589934592@server:*"

部署Kwok组件，启用节点模拟功能：

./docs/perf-testing/kwok.sh

创建100个模拟节点（可根据测试需求调整数量）：

./docs/perf-testing/node.sh

监控系统配置

部署Prometheus和Metrics Server以收集性能数据：

make dev-lab-metrics-server dev-lab-prometheus

配置Kyverno服务监控：

helm repo add kyverno https://kyverno.github.io/kyverno/
helm repo update
helm upgrade --install kyverno kyverno/kyverno -n kyverno \
  --create-namespace \
  --set admissionController.serviceMonitor.enabled=true \
  --set admissionController.replicas=3 \
  --set reportsController.serviceMonitor.enabled=true \
  --set reportsController.resources.limits.memory=10Gi \
  --set "features.omitEvents.eventTypes={PolicyApplied,PolicySkipped,PolicyViolation,PolicyError}"

自定义场景设计指南

场景设计五要素

一个完整的性能测试场景应包含：

工作负载特征：部署数量、副本数、资源请求
策略组合：验证、变异、生成策略的组合方式
流量模式：创建/更新频率、并发量
监控指标：延迟、吞吐量、资源占用
终止条件：测试时长、指标阈值

基础场景模板

以下是一个测试1000个Pod在严格安全策略下的性能场景定义：

apiVersion: perf.kyverno.io/v1alpha1
kind: PerformanceScenario
metadata:
  name: strict-policy-enforcement
spec:
  workload:
    type: Pod
    count: 1000
    namespace: test-scenario-1
    replicas: 1
    creationRate: 10/s
  policies:
    - name: require-run-as-nonroot
      type: validation
      failureAction: Enforce
    - name: add-default-seccomp
      type: mutation
    - name: generate-networkpolicy
      type: generation
  metrics:
    collectionInterval: 5s
    thresholds:
      admissionLatency: 100ms
      cpuUsage: 800m
      memoryUsage: 1Gi
  duration: 30m

测试脚本开发详解

工作负载生成器

deployment.sh脚本可创建指定数量的Deployment，每个Deployment包含多个副本：

#!/bin/bash
export KUBECONFIG=/etc/rancher/k3s/k3s.yaml

echo "Enter the deployment count:"
read count
echo "Enter the deployment replicas:"
read replicas
echo "Enter the deployment namespace:"
read namespace

kubectl create namespace $namespace

for (( i=1; i<=$count; i++ )); do
  yaml=$(cat <<-END
apiVersion: apps/v1
kind: Deployment
metadata:
  name: fake-pod-$i
  namespace: $namespace
spec:
  replicas: $replicas
  selector:
    matchLabels:
      app: fake-pod
  template:
    metadata:
      labels:
        app: fake-pod
    spec:
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
            - matchExpressions:
              - key: type
                operator: In
                values:
                - kwok
      tolerations:
      - key: "kwok.x-k8s.io/node"
        operator: "Exists"
        effect: "NoSchedule"
      containers:
      - name: fake-container
        image: fake-image
END
  )
  echo "$yaml" | kubectl apply -f -
done

自定义场景扩展

通过修改上述脚本，可实现更复杂的场景：

梯度创建：添加延迟控制，模拟工作负载逐步增长

# 在循环中添加延迟控制
sleep $((RANDOM % 3))  # 随机0-2秒延迟

混合工作负载：同时创建Deployment、StatefulSet和DaemonSet

# 随机选择工作负载类型
case $((RANDOM % 3)) in
  0) kind="Deployment" ;;
  1) kind="StatefulSet" ;;
  2) kind="DaemonSet" ;;
esac

策略压力测试：为每个工作负载应用随机策略组合

# 随机应用不同策略标签
labels="policy-group=$(shuf -n1 "security networking storage")"

性能指标采集与分析

核心指标体系

Kyverno性能测试关注以下关键指标：

指标类别	具体指标	采集方式	阈值建议
策略执行	准入延迟P99	Prometheus histogram	< 100ms
资源占用	控制器CPU使用率	Prometheus gauge	< 800m
资源占用	控制器内存使用	Prometheus gauge	< 2Gi
报告生成	报告创建速度	自定义脚本	> 10个/秒
存储性能	etcd键值大小	etcdctl	< 5GB

指标采集实现

使用Prometheus查询获取Kyverno准入控制器延迟：

histogram_quantile(0.99, sum(rate(kyverno_admission_request_duration_seconds_bucket[5m])) by (le))

监控报告控制器资源使用：

sum(container_memory_working_set_bytes{image=~".*kyverno.*", name="reports-controller"}) by (pod)

大规模场景性能分析

当创建100个Deployment（每个10个副本）时，预期会生成1200个策略报告（100个Deployment + 100个ReplicaSet + 1000个Pod）。通过size.sh脚本可计算etcd中策略报告的总存储大小：

$ ./docs/perf-testing/size.sh
Enter the resource to calculate the size:
wgpolicyk8s.io/policyreports
The total size for wgpolicyk8s.io/policyreports is 401851071 bytes.

高级场景实战

场景一：策略组合爆炸测试

目标：验证Kyverno在大量重叠策略下的性能表现

测试步骤：

部署10组不同的PodSecurityStandard策略
创建包含50个不同标签的命名空间
每个命名空间部署20个Deployment（每个5副本）
监控策略匹配和执行延迟

预期结果：策略匹配时间随策略数量线性增长，R2 > 0.95

场景二：报告生成压力测试

目标：测试报告控制器在大规模违规场景下的处理能力

测试步骤：

部署严格的PodSecurity策略（validationFailureAction=Audit）
创建5000个违反安全策略的Pod
监控报告控制器CPU/内存使用和报告生成速度
逐步增加策略数量，观察性能变化

关键发现：当报告数量超过5000时，建议调整报告控制器资源限制至10Gi内存，并启用报告压缩功能：

helm upgrade --install kyverno kyverno/kyverno -n kyverno \
  --set reportsController.resources.limits.memory=10Gi \
  --set features.reportCompression.enabled=true

性能优化最佳实践

控制器配置优化

根据测试结果，推荐以下Kyverno部署配置：

helm upgrade --install kyverno kyverno/kyverno -n kyverno \
  --create-namespace \
  --set admissionController.replicas=3 \  # 多副本提高吞吐量
  --set admissionController.horizontalPodAutoscaler.enabled=true \  # 启用HPA
  --set reportsController.resources.limits.memory=10Gi \  # 报告控制器内存优化
  --set "features.omitEvents.eventTypes={PolicyApplied,PolicySkipped}" \  # 减少事件生成
  --set features.admissionReports.enabled=false  # 禁用准入报告（非必要场景）

策略设计优化

减少策略重叠：使用明确的资源选择器，避免不必要的策略匹配

spec:
  resources:
    kinds:
    - apiGroups: ["apps"]
      kinds: ["Deployment"]  # 而非使用通配符*

优化背景扫描：设置合理的背景扫描间隔，避免频繁全量扫描

spec:
  background: true
  backgroundScanInterval: "1h"  # 延长扫描间隔

报告精简：仅包含关键信息，减少报告大小

spec:
  validationFailureAction: Audit
  auditConfig:
    omitAttributes: true  # 省略详细属性

总结与展望

Kyverno性能测试框架通过Kwok模拟技术，实现了在单机环境下测试大规模集群场景的能力。通过本文介绍的自定义场景构建方法，用户可以根据实际业务需求，设计贴合真实环境的性能测试用例，从而精准评估Kyverno在不同策略组合和工作负载下的表现。

未来，测试框架将朝着以下方向发展：

自动化场景生成：基于真实集群流量分析，自动生成测试场景
AI辅助性能诊断：通过机器学习识别性能瓶颈模式
多集群性能对比：支持不同Kyverno版本在相同场景下的性能对比

掌握性能测试框架的自定义场景构建能力，将帮助你在实际生产环境中提前识别潜在性能问题，优化策略配置，确保Kyverno在大规模Kubernetes集群中稳定高效运行。

点赞+收藏+关注，获取更多Kyverno性能优化实战技巧！下期预告：《Kyverno策略引擎深度优化：从代码到配置》

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考