文件到gbase数据同步场景报错问题总结

原创

已于 2025-02-18 09:16:19 修改 · 581 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#java #数据库

于 2025-02-18 09:05:56 首次发布

文件到gbase数据同步场景报错问题总结

源文件会先转编码，到中转文件，导入命令会将中转文件的数据加载到GBase数据库中，并通过CHARACTER SET参数指定数据的字符集。

gbase导入命令会通过CHARACTER SET xxx 参数指定原始数据的字符集，当前GBase 支持的字符集为GB系列(GB2312,GBK,GB18030)和UTF8系列(utf8,utf8mb4)。
对与文件到gbase同步场景出现的乱码问题，目前遇到以下三种情况是生产问题：

一、源文件为utf8，导入的中转文件为utf8，导入命令指定utf8，GBase表为utf8：

问题描述： 即使源文件存在乱码，只要导入命令和目标表编码都指定为UTF-8，数据依然能够导入成功。
原因： 在这种情况下，由于目标表编码与导入命令一致，即使源文件存在乱码，也能通过GBase的字符集自动处理乱码，成功导入数据。

二、源文件为 gbk(ms936)，导入的中转文件为utf8，导入命令指定utf8，GBase表为gbk：

问题描述： 源文件乱码情况下不可以导入成功。报错unknow character set

方案：

指定导入的中转文件编码格式为 gbk，导入命令指定 gbk，则源文件乱码情况下可以导入成功（注意：如果分隔符是欧元符，还需要指定自定义列分隔符为"|"才可以导入成功，gbk中没有欧元符这一字符，ms936才有，否则会报错：The number of data columns is less than the number of columns defined）
原先的逻辑：gbkms936这种编码格式文件，gbase导入不支持，需做清洗转换utf8处理，且load gbase指定utf8处理

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。