网上一般给出的编码范围:
UTF-8 (Unicode)
- u4e00-u9fa5 (中文)
- x3130-x318F (韩文)
- xAC00-xD7A3 (韩文)
- u0800-u4e00 (日文)
实际上发现:
除了u4e00-u9fa5 (中文)之外,还有(0x3400, 0x4DB5)也是。
GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),一共收录了27484个汉字。
对应的utf8也进行了相应增加。
博客探讨了UTF-8编码中除u4e00-u9fa5以外的中文字符范围,特别是GB18030在GB13000.1基础上增加了CJK扩展A的汉字,包括0x3400-0x4DB5的6582个汉字。内容涉及Unicode与中文编码的深入理解。
55万+

被折叠的 条评论
为什么被折叠?



