DeepFlow部署实战：K8s环境安装教程-优快云博客

DeepFlow部署实战：K8s环境安装教程

【免费下载链接】deepflow DeepFlow 是云杉网络 (opens new window)开发的一款可观测性产品，旨在为复杂的云基础设施及云原生应用提供深度可观测性。DeepFlow 基于 eBPF 实现了应用性能指标、分布式追踪、持续性能剖析等观测信号的零侵扰（Zero Code）采集，并结合智能标签（SmartEncoding）技术实现了所有观测信号的全栈（Full Stack）关联和高效存取。使用 DeepFlow，可以让云原生应用自动具有深度可观测性，从而消除开发者不断插桩的沉重负担，并为 DevOps/SRE 团队提供从代码到基础设施的监控及诊断能力。项目地址: https://gitcode.com/DeepFlow/deepflow

前言：为什么需要DeepFlow？

在云原生时代，微服务架构带来了前所未有的复杂性。传统的监控工具往往需要大量的代码插桩（Instrumentation），给开发者带来沉重负担。你是否遇到过这些问题：

分布式追踪需要手动埋点，代码侵入性强
多语言混合环境监控困难
网络性能瓶颈难以定位
基础设施与应用层监控数据割裂

DeepFlow基于eBPF技术实现了零侵扰（Zero Code）的全栈可观测性，无需修改代码即可自动采集指标、追踪、日志和性能剖析数据。本文将手把手教你如何在Kubernetes环境中部署DeepFlow。

部署架构概览

DeepFlow在K8s环境中的部署包含两个核心组件：

mermaid

组件说明：

DeepFlow Agent: 以DaemonSet形式运行在每个节点，负责数据采集
DeepFlow Server: 中心化服务，包含控制器、查询器等模块
存储后端: MySQL（元数据） + ClickHouse（观测数据）
可视化: Grafana集成

环境准备

系统要求

组件	最低配置	推荐配置
Kubernetes	v1.16+	v1.20+
CPU	4核	8核
内存	8GB	16GB
存储	50GB	200GB+

网络要求

确保以下端口在集群内可访问：

3000: Grafana Web界面
20416: DeepFlow查询服务
20417: 控制器服务
20033: 数据平面端口

详细部署步骤

步骤1：创建命名空间

首先创建DeepFlow专用的命名空间：

# deepflow-namespace.yaml
apiVersion: v1
kind: Namespace
metadata:
  name: deepflow
  labels:
    name: deepflow

应用配置：

kubectl apply -f deepflow-namespace.yaml

步骤2：部署DeepFlow Server

使用Helm Chart或直接使用官方提供的部署文件：

# 添加DeepFlow Helm仓库
helm repo add deepflow https://deepflowio.github.io/deepflow
helm repo update

# 安装DeepFlow Server
helm install deepflow-server deepflow/deepflow-server \
  --namespace deepflow \
  --set global.serverHost=<YOUR_SERVER_IP> \
  --set storage.clickhouse.persistence.size=100Gi \
  --set storage.mysql.persistence.size=20Gi

步骤3：部署DeepFlow Agent

创建Agent的DaemonSet配置：

# deepflow-agent-daemonset.yaml
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: deepflow-agent
  namespace: deepflow
spec:
  selector:
    matchLabels:
      app: deepflow-agent
  template:
    metadata:
      labels:
        app: deepflow-agent
    spec:
      hostPID: true
      containers:
      - name: deepflow-agent
        image: deepflowce/deepflow-agent:latest
        imagePullPolicy: Always
        securityContext:
          privileged: true
        volumeMounts:
        - name: sys-kernel-debug
          mountPath: /sys/kernel/debug
        - name: netns
          mountPath: /var/run/netns
          mountPropagation: HostToContainer
      volumes:
      - name: sys-kernel-debug
        hostPath:
          path: /sys/kernel/debug
      - name: netns
        hostPath:
          path: /var/run/netns

应用Agent配置：

kubectl apply -f deepflow-agent-daemonset.yaml

步骤4：验证部署

检查所有组件状态：

# 检查Server状态
kubectl get pods -n deepflow -l app=deepflow-server

# 检查Agent状态（每个节点都应该有一个）
kubectl get pods -n deepflow -l app=deepflow-agent

# 检查服务状态
kubectl get svc -n deepflow

预期输出：

NAME                READY   STATUS    RESTARTS   AGE
deepflow-server-0   1/1     Running   0          5m
deepflow-agent-abc  1/1     Running   0          3m
deepflow-agent-xyz  1/1     Running   0          3m

配置详解

核心配置参数

参数	说明	默认值
`global.serverHost`	Server节点IP	必需
`agent.ebpf.enabled`	启用eBPF采集	true
`storage.clickhouse.persistence.size`	ClickHouse存储大小	100Gi
`grafana.enabled`	启用Grafana	true

网络配置优化

对于生产环境，建议配置网络策略：

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: deepflow-network-policy
  namespace: deepflow
spec:
  podSelector:
    matchLabels:
      app: deepflow-agent
  policyTypes:
  - Egress
  egress:
  - to:
    - podSelector:
        matchLabels:
          app: deepflow-server
    ports:
    - protocol: TCP
      port: 30035
    - protocol: TCP
      port: 20033

常见问题排查

问题1：Agent启动失败

症状：Agent容器不断重启 解决方案：

# 检查内核版本（需要4.14+）
uname -r

# 检查eBPF支持
ls /sys/kernel/debug/tracing/events | head -5

# 查看详细日志
kubectl logs -n deepflow <agent-pod-name>

问题2：数据采集异常

症状：Grafana中无数据展示 解决方案：

# 检查Server与Agent连接
kubectl exec -n deepflow <agent-pod-name> -- deepflow-agent --status

# 检查网络连通性
kubectl exec -n deepflow <agent-pod-name> -- ping <server-ip>

问题3：资源不足

症状：Pod被Evicted或OOMKilled 解决方案：

调整资源限制
增加存储空间
优化数据保留策略

性能优化建议

资源分配指南

组件	CPU请求	CPU限制	内存请求	内存限制
DeepFlow Agent	500m	2000m	512Mi	2Gi
DeepFlow Server	1000m	4000m	2Gi	8Gi
ClickHouse	2000m	8000m	4Gi	16Gi

数据保留策略

-- 调整数据保留时间（默认7天）
ALTER TABLE flow_log MODIFY TTL create_time + INTERVAL 30 DAY;

-- 调整采样率（高流量环境）
SET sampling_ratio = 0.1;

进阶配置

集成Prometheus

# prometheus-integration.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: deepflow-prometheus-config
  namespace: deepflow
data:
  prometheus.yaml: |
    global:
      scrape_interval: 15s
    remote_write:
    - url: http://deepflow-server:20416/api/v1/prom/write

自定义标签注入

# custom-tags.yaml
apiVersion: deepflow.io/v1
kind: TagRule
metadata:
  name: business-tags
spec:
  rules:
  - match:
      namespace: "production"
    tags:
      environment: "prod"
      team: "backend"

监控与告警

健康检查配置

# health-check.yaml
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: deepflow-monitor
  namespace: deepflow
spec:
  endpoints:
  - port: http-metrics
    interval: 30s
  selector:
    matchLabels:
      app: deepflow-server

关键指标告警

# alerts.yaml
groups:
- name: DeepFlowAlerts
  rules:
  - alert: DeepFlowAgentDown
    expr: up{job="deepflow-agent"} == 0
    for: 5m
    labels:
      severity: critical
    annotations:
      summary: "DeepFlow Agent down on {{ $labels.instance }}"
  
  - alert: HighDropRate
    expr: rate(deepflow_packet_drop_total[5m]) > 100
    for: 2m
    labels:
      severity: warning

总结

通过本文的详细教程，你应该已经成功在Kubernetes环境中部署了DeepFlow。DeepFlow的零侵扰特性让它成为云原生可观测性的理想选择，特别是对于：

多语言微服务架构：无需修改代码即可获得全栈追踪
混合云环境：统一监控本地和云上资源
性能诊断：基于eBPF的深度性能剖析
安全合规：网络流量全量采集与分析

部署完成后，你可以通过Grafana（端口3000）访问DeepFlow的可视化界面，开始体验全栈可观测性带来的价值。

下一步建议：

导入示例应用验证数据采集
配置自定义仪表盘和告警
集成现有监控体系（Prometheus/OpenTelemetry）
探索高级功能如智能标签和性能剖析

DeepFlow的强大功能将帮助你彻底解决云原生环境下的可观测性挑战，让监控变得简单而高效。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考