结论:加密解密汉字会引起汉字编码问题,使用convert()函数指定编码类型
最近学习使用数仓,将MySQL中的数据导入hive做分析。
因敏感性问题,业务方给的表中有几个字段是加密的,用的mysql自带的aes_encrypt,解密也简单,自带的aes_decrypt就可以。在MySQL中测试密码没问题后,就开始导数。
我导数用的是sqoop-import,导入的orc格式的hive分区表。
#将数据导入hive
#!/usr/bin/env bash
cal_date=$1
workdir=$(cd $(dirname $0); pwd)
sql=$workdir/../sql
hadoop fs -rm -r hdfs://nameservice/user/hive/warehouse/testdb.db/test/dt=$cal_date
sqoop import \
--connect jdbc:mysql://1.1.1.1:5647/aaa \
--username aaaa \
--password ****** \
--query 'select value1,aes_decrypt(value2,"mima") as value2, value3, aaa.test where $CONDITIONS' \
--hcatalog-database testdb\
--hcatalog-table test\
--hcatalog-partition-keys dt,partitiontype \
--hcatalog-partition-values ${cal_date},'all' \
--hive-drop-import-delims \
--class-name test\
-m 1
if [ $? -ne 0 ]; then
exit 1
fi
执行结束后发现,value1,value3都正常导入了,value2全都是null。
经过几次测试,结果是 使用sqoop import时,只要经过加密解密的,都不能导入数仓,使用 sqoop eval 进行测试,纯数字或字母的字符串可以正常展示,汉字无法展示,猜测应该是 编码问题引起的。
指定解密字段类型后,成功导入
sqoop import \
--connect jdbc:mysql://1.1.1.1:5647/aaa \
--username aaaa \
--password ****** \
--query 'select value1,convert(aes_decrypt(value2,"mima") using utf8 ) as value2, value3, aaa.test where $CONDITIONS' \
--hcatalog-database testdb\
--hcatalog-table test\
--hcatalog-partition-keys dt,partitiontype \
--hcatalog-partition-values ${cal_date},'all' \
--hive-drop-import-delims \
--class-name test\
-m 1
搞了一天多,学到了,记录一下
life is fantastic