多语言字符集系列文章-- 第三篇 IRIS对多语言字符集的支持和常见问题

原创

于 2022-03-10 01:14:57 发布 · 688 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #linux #java #编程语言 #数据库

本文介绍了InterSystems IRIS如何处理多语言字符集，特别是其内部采用UTF-16编码并支持其他如UTF-8、GB18030的转换。文章详细讨论了IRIS的字符集转换机制，包括算法转换和I/O转换表。此外，还阐述了IRIS提供的字符集相关命令、函数和方法，如$ZCVT、$ASCII等。最后，文章讨论了在文件、数据库、HTTP、SOAP/REST、HL7 V2消息等场景下可能出现的字符集问题及其解决策略。

3.1 InterSystems IRIS内码与多语言支持

3.1.1 InterSystems IRIS内码与字符集转换

InterSystems IRIS的内码是UTF-16，因此它支持Unicode多语言字符集。对于其它字符编码，例如UTF-8、GB18030、Big 5，它会自动进行转码。例如对于简体中文，它将GB18030输入数据转换为UTF-16，或者将UTF-16数据转换为GB18030输出。

因为GB18030兼容GB2312，所以InterSystems IRIS也支持GB2312。

注意：在第一篇介绍过，GB18030与GBK并不完全兼容，因此InterSystems IRIS理论上不支持GBK。

InterSystems IRIS如何做字符集编码系统间的转换？它使用2种方式：

对于可以通过算法转换的，例如UTF-8与UTF-16的相互转换，InterSystems IRIS会使用算法转换；

对于无法通过算法转换的，例如与UTF-16的相互转换，InterSystems IRIS会使用I/O转换表转换，它其实是两个映射关系表，一个用于特定字符集转UTF-16、另一个用于UTF-16转特定字符集。

注意，大家可能会注意到，GB18030的I/O转换表里并没有所有的GB18030编码，这是为什么呢？回顾一下第一篇关于GB18030的介绍，它提到了GB18030编码中一部分与Unicode编码非连续相关，而另一部分与Unicode编码连续相关。在InterSystems IRIS的GB18030的I/O转换表，其实只有与Unicode编码非连续相关的那部分编码，就是需要通过对照表关联的部分；而连续相关的那部分，是通过算法转换的，因此不在I/O转换表里。这么做的目的是降低把GB18030这么大的代码表全部加载到内存里的硬件成本。