一、离线处理部分
1.1 SQOOP导入
- 导入脚本
- 在Sqoop配置选项中添加 compression-codec 选项,填报需要的压缩。
Sqoop 官网介绍的是:Use Hadoop codec (default gzip)
sqoop import \
--connect "jdbc:mysql://192.168.xx.xxx:3306/info_safe?useUnicode=true&characterEncoding=utf-8" \
--driver com.mysql.jdbc.Driver \
--username root \
--password password \
--table tableName \
--num-mappers 1 \
--export-dir /youDataDir/* \
--input-fields-terminated-by '\001' \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--compression-codec Snappy
------------------------------------------------
-- 常用压缩类
org.apache.hadoop.io.compress.SnappyCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.BZip2Codec
1.2 Flume导入Hdfs
- 以KafkaSink为例,关键点在于设置Sink输出时配置如下参数
a1.sinks.k1.hdfs.fil