xslx表格文件采集到hdfs流程&hdfs数据 load到hive表

xslx表格文件采集到hdfs

咱们就是说,别的话不多说,直接开始实操

xslx在win系统上,打开后另存为csv文件格式,上传到linux系统中。(注意下编码格式,不然后面就是中文乱码)。

file -i csv文件
可以查看文件现在的编码格式(编码格式不匹配会导致文件内中文乱码)。

修改文件的编码格式:

iconv -f gbk -t UTF-8 目标csv文件 > 生成新csv文件
cat文件,可以发现文件内容已经不是乱码了。

采集csv文件到hdfs中

在datax/job目录创建json文件,(Datax数据源转换文档:https://github.com/alibaba/DataX/blob/master/introduction.md),按照需求配置json文件。

提交数据同步任务:

python datax/bin/datax.py json文件路径/job.json

我为了方便自己使用,写了一个脚本——datax提交同步任务的脚本:run_datax.sh 

#!/bin/bash

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值