如果你从HDFS上导出csv文件,可能存在中文乱码问题。用多个编辑器、工具都不能解决,可以用如下python代码轻松搞定。
导出语句:
hive -e "select * from xx.table" >> /data/tmp/abc.csv
python代码:
import pandas as pd dat = pd.read_table("D:/LBS/yuan_min/1_1024/NearestNeighbor/OutputDir/test1.csv") dat.to_csv('D:/LBS/yuan_min/1_1024/NearestNeighbor/OutputDir/test2.csv', encoding='gbk', index=False, header=False)
本机python环境:
Python 3.6.1 :: Anaconda 4.4.0 (64-bit)
如上内容生成一个py文件,执行即可。
本文介绍了一种解决从HDFS导出CSV文件时出现中文乱码的方法。通过使用Python的pandas库,可以轻松地将乱码转换为正确的中文字符,并指定输出文件的编码格式。
5692

被折叠的 条评论
为什么被折叠?



