今天上课,老师想让我们清楚搞清楚HTML主要编码之间的关系,于是就开始在网上查资料。
结果,这个问题比我想象的复杂。
GBK
编码方式
经实际测试和查阅文档,GBK是采用单双字节变长编码,英文使用单字节编码,完全兼容ASCII字
符编码,中文部分采用双字节编码。
GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE
之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包
括部首和构件)21003 个,图形符号 883 个。
全部编码分为三大部分:
1. 汉字区。包括:
a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。
b. GB 13000.1 扩充汉字区。包括:
(1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。
(2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大

本文探讨了HTML编码中的GBK与UTF-8的关系,包括GBK的双字节变长编码特点,GB13000.1汉字区和图形符号区划分,以及UTF-8作为统一编码在互联网中的应用,强调了两者在字形规则和互联网兼容性上的区别。
最低0.47元/天 解锁文章
377





