Datakit，真正的统一可观测性 Agent

观测云

于 2022-07-04 18:20:59 发布

阅读量590

点赞数

CC 4.0 BY-SA版权

分类专栏：可观测实践文章标签：大数据开源软件云原生 DevOps 运维

本文链接：https://blog.youkuaiyun.com/DataFlux/article/details/125595236

可观测实践专栏收录该内容

30 篇文章

订阅专栏

DataKit是一款开源的一体化数据采集平台，支持多种环境下的统一数据采集，包括Metrics、Logs、Traces等，具备强大的扩展性和配置管理能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

随着云、云原生的发展，越来越多的客户意识到了“数据”的重要性，纷纷掀起了一波数据累积浪潮。

现今，国内外都有大量的数据采集器，但大多数采集能力单一，比如 Telegraf 仅支持指标，Filebeat只服务日志，OpenTelemetry 的 Collector对非云原生的组件并不友好，需要大量安装 Exporter插件。为了实现系统的可观测性，需要使用多个采集器，造成资源浪费。

Datakit 是目前唯一的真正一体化实现各种环境（传统环境，云/云原生）统一数据采集平台，一个进程或 Daemonset Pod就可以实现全方位的数据采集，配置体验良好，开源且可扩展性强。本文将全面介绍 Datakit 相关功能。

（DataKit 内部架构）

多维度可观测性数据采集

Datakit 支持从各种基础设施、技术栈中采集 Metrics、Logs、Traces 等数据，并对这些数据进行结构化处理。

1、实时基础设施对象

DataKit 支持从主机，容器，k8s，进程，云产品，所有基础设施对象实时状态一网打尽。例如：

Datakit hostobject 用于收集主机基本信息，如硬件型号、基础资源消耗等。

进程采集器可以对系统中各种运行的进程进行实施监控，获取、分析进程运行时各项指标，包括内存使用率、占用CPU时间、进程当前状态、进程监听的端口等，并根据进程运行时的各项指标信息，用户可以在观测云中配置相关告警，使用户了解进程的状态，在进程发生故障时，可以及时对发生故障的进程进行维护。

2、指标

相比 Telegraf 只能采集时序数据，DataKit 涵盖更为全面的数据采集类型，有海量的技术栈的指标收集能力，采集器的配置更简单，数据质量更好。

3、日志

日志数据对于整体的可观测性，其提供了足够灵活、多变的的信息组合方式，正因如此，相比指标和 Tracing，日志的采集、处理方式方案更多，以适应不同环境、架构以及技术栈的采集场景。

从磁盘文件获取日志

这是最原始的日志处理方式，不管是对开发者而言，还是传统的日志收集方案而言，日志最开始一般都是直接写到磁盘文件的，写到磁盘文件的日志有如下几个特点：

序列式写入：一般的日志框架，都能保证磁盘文件中的日志，保持时间的序列性

自动切片：由于磁盘日志文件都是物理递增的，为避免日志将磁盘打爆，一般日志框架都会自动做切割，或者通过一些外部常驻脚本来实现日志切割

基于以上特征，DataKit 只需要要持续盯住这些文件的变更即可（即采集最新的更新），一旦有日志写入，则 DataKit 就能采集到，而且其部署也很简单，只需要在日志采集器的 conf 中填写要采集的文件路径（或通配路径）即可。

通过调用环境 API 获取日志

这种采集方式目前主要针对容器环境中的 stdout 日志，这种日志要求运行在容器（或 Kubernetes Pod）中的应用将日志输出到 stdout，然后通过 Docker 的日志接口，将对应 stdout 上的日志同步到 DataKit。

远程推送日志给 DataKit

对远程日志推送而言，其主要是

开发者直接将应用日志推送到 DataKit 指定的服务上，比如 Java 的 log4j 以及 Python 原生的 SocketHandler 均支持将日志发送给远端服务。

第三方平台日志接入

这种形式的特点是日志直接发送给 DataKit，中间无需落盘。

Sidecar 形式的日志采集

这种方式的采集实际上是综合了磁盘日志采集和日志远程推送俩种方式，具体而言，就是在用户的 Pod 中添加一个跟 DataKit 配套（即 logfwd）的 Sidecar 应用，其采集方式如下：

4、链路追踪

DataKit 当前支持多种广泛应用的 Trace 数据，如 zipkin/jaeger/otel/skywalking/ddtrace 等，只需要将对应的数据地址指向 Datakit 即可。

5、端行为

DataKit 支持全面收集前端的行为数据，包括 H5/Android/IOS/Fultter/React-native 等。

RUM（Real User Monitor）采集器用于收集网页端或移动端上报的用户访问监测数据。建议将 RUM 以单独的方式部署在公网上，不要跟已有的服务部署在一起（如 Kubernetes 集群）。因为 RUM 这个接口上的流量可能很大，集群内部的流量会被它干扰到，而且一些可能的集群内部资源调度机制，可能影响 RUM 服务的运行。

通常生产环境的 js 文件会经过各种转换和压缩，与开发时的源代码差异较大，不便于排错(debug)。如果需要定位错误至源码中，就得借助于sourcemap文件。

DataKit 支持这种源代码文件信息的映射，方法是将对应 js 的sourcemap文件进行 zip 压缩打包，命名格式为 <app_id>-<env>-<version>.zip，上传至<DataKit安装目录>/data/rum/，这样就可以对上报的error指标集数据自动进行转换，并追加 error_stack_source 字段至该指标集中。

6、云原生安全

SChecker 插件，绝对安全的安全巡检器，lua 沙箱只读分析，支持 300+ 的安全事件发现，用户可自定义属于自己的规则文件及lib库。

一般在运维过程中有非常重要的工作就是对系统，软件，包括日志等一系列的状态进行巡检，传统方案往往是通过工程师编写shell（bash）脚本进行类似的工作，通过一些远程的脚本管理工具实现集群的管理。但这种方法实际上非常危险，由于系统巡检操作存在权限过高的问题，往往使用root方式运行，一旦恶意脚本执行，后果不堪设想。实际情况中存在两种恶意脚本，一种是恶意命令，如rm -rf，另外一种是进行数据偷窃，如将数据通过网络 IO 泄露给外部。

因此 Security Checker 希望提供一种新型的安全的脚本方式（限制命令执行，限制本地IO，限制网络IO）来保证所有的行为安全可控，并且 Security Checker 将以日志方式通过统一的网络模型进行巡检事件的收集。同时 Security Checker 将提供海量的可更新的规则库脚本，包括系统，容器，网络，安全等一系列的巡检。scheck 为Security Checker 的简写。