文件到gbase数据同步场景报错问题总结

文件到gbase数据同步场景报错问题总结

源文件会先转编码,到中转文件,导入命令会将中转文件的数据加载到GBase数据库中,并通过CHARACTER SET参数指定数据的字符集。

gbase导入命令会通过CHARACTER SET xxx 参数指定原始数据的字符集,当前GBase 支持的字符集为GB系列(GB2312,GBK,GB18030)和UTF8系列(utf8,utf8mb4)。
对与文件到gbase同步场景出现的乱码问题,目前遇到以下三种情况是生产问题:

一、源文件为utf8,导入的中转文件为utf8,导入命令指定utf8,GBase表为utf8:

问题描述: 即使源文件存在乱码,只要导入命令和目标表编码都指定为UTF-8,数据依然能够导入成功。
原因: 在这种情况下,由于目标表编码与导入命令一致,即使源文件存在乱码,也能通过GBase的字符集自动处理乱码,成功导入数据。

二、源文件为 gbk(ms936),导入的中转文件为utf8,导入命令指定utf8,GBase表为gbk:

问题描述: 源文件乱码情况下不可以导入成功。报错unknow character set

方案:

指定导入的中转文件编码格式为 gbk,导入命令指定 gbk,则源文件乱码情况下可以导入成功(注意:如果分隔符是欧元符,还需要指定自定义列分隔符为"|"才可以导入成功,gbk中没有欧元符这一字符,ms936才有,否则会报错:The number of data columns is less than the number of columns defined)
原先的逻辑:gbkms936这种编码格式文件,gbase导入不支持,需做清洗转换utf8处理,且load gbase指定utf8处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值