文件到gbase数据同步场景报错问题总结
源文件会先转编码,到中转文件,导入命令会将中转文件的数据加载到GBase数据库中,并通过CHARACTER SET参数指定数据的字符集。
gbase导入命令会通过CHARACTER SET xxx 参数指定原始数据的字符集,当前GBase 支持的字符集为GB系列(GB2312,GBK,GB18030)和UTF8系列(utf8,utf8mb4)。
对与文件到gbase同步场景出现的乱码问题,目前遇到以下三种情况是生产问题:
一、源文件为utf8,导入的中转文件为utf8,导入命令指定utf8,GBase表为utf8:
问题描述: 即使源文件存在乱码,只要导入命令和目标表编码都指定为UTF-8,数据依然能够导入成功。
原因: 在这种情况下,由于目标表编码与导入命令一致,即使源文件存在乱码,也能通过GBase的字符集自动处理乱码,成功导入数据。
二、源文件为 gbk(ms936),导入的中转文件为utf8,导入命令指定utf8,GBase表为gbk:
问题描述: 源文件乱码情况下不可以导入成功。报错unknow character set
方案:
指定导入的中转文件编码格式为 gbk,导入命令指定 gbk,则源文件乱码情况下可以导入成功(注意:如果分隔符是欧元符,还需要指定自定义列分隔符为"|"才可以导入成功,gbk中没有欧元符这一字符,ms936才有,否则会报错:The number of data columns is less than the number of columns defined)
原先的逻辑:gbkms936这种编码格式文件,gbase导入不支持,需做清洗转换utf8处理,且load gbase指定utf8处理