1、背景和目的
梧桐云原生分析型数据库中系统设置编码格式是 UTF8,如果入库文件不是 UTF8 编码格式的不能成功入库,所以需要对非 UTF8 格式的文件进行转码操作。统一编码格式能够保证数据的准确性,从而业务可以正常运行。
2、流程介绍
梧桐云原生分析型数据库加载文件时会先对文件的编码格式进行检查,如果编码格式为非 UTF8 格式的,会先把文件转为 UTF8 格式的文件,然后文件上传到HDFS,最后加载到梧桐云原生分析型数据库。
3、非UTF8文件入库
3.1 判断是否为UTF8文件
脚本名称:file_check_utf8.sh
脚本入参:路径/文件名称
返回值:0代表 utf8文件, 1代表非 utf8文件

3.2 非UTF8文件转换方法
脚本名称:trans_to_utf8.sh
脚本入参:路径/文件名称
返回值:0代表转换 utf8文件成功, 其他代表转换 utf8文件失败

3.3 上传文件到hdfs
hadoop fs -put /xxxx/xxx/tb_xx_xx_xxxx_xxx.txt /path

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



