xslx表格文件采集到hdfs
咱们就是说,别的话不多说,直接开始实操
xslx在win系统上,打开后另存为csv文件格式,上传到linux系统中。(注意下编码格式,不然后面就是中文乱码)。
file -i csv文件
可以查看文件现在的编码格式(编码格式不匹配会导致文件内中文乱码)。
修改文件的编码格式:
iconv -f gbk -t UTF-8 目标csv文件 > 生成新csv文件
cat文件,可以发现文件内容已经不是乱码了。
采集csv文件到hdfs中
在datax/job目录创建json文件,(Datax数据源转换文档:https://github.com/alibaba/DataX/blob/master/introduction.md),按照需求配置json文件。
提交数据同步任务:
python datax/bin/datax.py json文件路径/job.json
我为了方便自己使用,写了一个脚本——datax提交同步任务的脚本:run_datax.sh
#!/bin/bash