Fayson的github: https://github.com/fayson/cdhproject
推荐关注微信公众号:“Hadoop实操”,ID:gh_c4c535955d0f
1 文档编写目的
Fayson在前面写过多篇StreamSets的文章,本篇文章主要介绍通过StreamSets实时的方式读取本地的数据文件,通过解析处理将文件中的内容写入到Kudu中。在进行本篇文章学习前你还需要了解:
《如何在CDH中安装和使用StreamSets》
- 内容概述
1.测试环境准备
2.准备测试数据
3.配置StreamSets
4.流程测试及数据验证
- 测试环境
1.RedHat7.4
2.CM和CDH版本为6.1.0
3.Kudu 1.8.0
2 测试环境准备
1.通过Hue使用Impala创建一个Kudu表,创建脚本如下:
CREATE TABLE user_info_kudu (
id STRING COMPRESSION snappy,
name STRING COMPRESSION snappy,
sex STRING COMPRESSION snappy,
city STRING COMPRESSION snappy,
occupation STRING COMPRESSION snappy,
mobile_phone_num STRING COMPRESSION snappy,
fix_phone_num STRING COMPRESSION snappy,
bank_name STRING COMPRESSION snappy,
address STRING COMPRESSION snappy,
marriage STRING COMPRESSION snappy,
child_num INT COMPRESSION snappy,
PRIMARY KEY (id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU
TBLPROPERTIES ('kudu.master_addresses'='master,hadoop13'
);

在创建Kudu表的时候增加了kudu.master的配置参数,如果Impala中未集成kudu

本文档详细介绍了如何使用 StreamSets 实时读取本地数据文件,并将内容写入 Kudu 数据库。首先,介绍了测试环境准备,包括创建 Kudu 表和准备测试数据。接着,展示了在 StreamSets 中创建 Pipeline 的步骤,配置 Directory 源、Kafka 中间件和 Kudu 目标,以及使用 JavaScript Evaluator 进行数据解析。最后,通过实际操作验证了数据采集和入库的正确性。
最低0.47元/天 解锁文章
837

被折叠的 条评论
为什么被折叠?



