Linkedin Camus，从Kafka到HDFS的数据传输管道

最新推荐文章于 2024-04-11 09:33:48 发布

转载最新推荐文章于 2024-04-11 09:33:48 发布 · 1.5k 阅读

大数据同时被 2 个专栏收录

54 篇文章

订阅专栏

kafka

10 篇文章

订阅专栏

Camus是LinkedIn开源的一款数据管道工具，能够高效地将Kafka中的数据同步到HDFS上。该工具本质上是一个MapReduce作业，通过自定义的Decoder和Writer组件，可以轻松地适配不同的数据格式和需求。

Preface

本文是对Linkedin-Camus的介绍。内容都是从Camus的github中摘取出来的，详细的内容要看其说明和源码

Introduction of Camus

Camus是Linkedin开源的一个从Kafka到HDFS的数据管道，实际上它是一个MapReduce作业

What is Avro

Apache Avro是一个 Data Serialization System，数据序列化系统。
Camus使用了Avro Schema

Camus Stage

Camus作业有三个阶段

Setup Stage：从Kafka的Zookeeper获取可用的topics，partitions，offset等元信息（Metadata）
Hadoop Job Stage：开始用若干个task执行topic的数据获取，并写到HDFS
Cleanup Stage：

Hadoop Stage

Pulling the data：根据Setup Stage的数据建立Kafka请求，拉取数据。每个task都生成4个文件：Avro data files，Count statistics files，Updated offset files，Error files
Committing the data：当一个task完成时，其拉取的数据都被提交到output目录
Storing the offset：每个partition都有offset，这些offset信息存储在HDFS中

Camus Operations

Installation

下载源码后，

mvn clean package

Create Custom Decoder for Kafka Messages

需要自己创建一个Kafka message的Decoder，可以通过实现com.linkedin.batch.etl.kafka.coders.KafkaMessageDecoder该抽象类。

在Camus的配置中需要指定我们实现的Decoder类

Writing to Different Format

Camus默认将Avro文件写入到HDFS，我们也可以实现自己的写入方法，并通过
etl.record.writer.provider.class=来配置

Configuration

运行Camus作业前需要进行一系列的配置，可以参考Camus Example的配置

Run Camus

直接做为Hadoop的作业运行即可

hadoop jar camus-example-<version>-SNAPSHOT.jar com.linkedin.camus.etl.kafka.CamusJob
-D <property=value>   use value for given property<br/>
-P <arg>              external properties filename<br/>
-p <arg>              properties filename from the classpath<br/>