28【UTF-8和GBK】

首先你需要阅读知道,什么是【ASCALL编码】



对于ascall码一共是256个,远远无法表示出全球的字符,对于汉字而言也无法表达,那么就使用2个ascall码表示一个汉字,那么256*256=65532,也就是说2个ascall码可以表示65532个字符,那么在此基础上发展出了gbk编码


但是这样会存在一个问题,比如a的ascall码是97,那{97,97}是表示aa还是表示一个汉字?


所以汉字使用了一个拓展码(129-255)+1个全码(0-255)来表示,这个设计很巧妙,只要出现一个拓展码,就要将这个拓展码及其后面的哪个ascall码看成一个整体
 

理论最多可表达汉字:
128*256=32768个




这就是我在ascall编码文章中说过的后面的128个不单独表示某个符号,而是为了防止出错,起到配合作用


 

重点:GBK和GB2312这是我们很长用到的2种编码,其中GB2312发布的时间早(1980年),GB2312 包含 6763 个汉字; GBK 包含 21886 个汉字和图形符号;GBK兼容GB2312,对于一般开发来说,GB2312完全足够了,GBK主要包括了很多生僻字
拓展:GBK第一个字节ascall码129-254(127个),第二个字节的范围是64-254(192个)
127*192=24384
很多人可能会问,不是21886吗?不一定全编码了,而且有几个ascall码没采用,这里我们就不探讨了,大概知道原理就好
重点:这里要说明的是gbk编码是由2个ascall码为一组构成的基本单元,比如“你”的gbk编码是{196,227},但是{196,227}只是在gbk编码中表示“你”,在其他双字节编码中可能表示“我”,这个没有什么技巧,就是一一对应的关系,编码设计者规定的


utf-8编码使用3个ascall编码来表达一个字符,所以是128(拓展码)*256(全码)*256(全码)= 8388608(理论值),显然可以满足几乎全球所有的字符,也就是说全球几乎任意一个字符都有唯一的一个utf-8编码去对应,所以utf-8编码也称为全球通用编码,现在大多数网站都是采用utf-8编码的
 

难点1:如果一个网站采用的是gbk编码,会如何
首先,在中国是可以正常阅读的,但是在外国可能会乱码,因为外国的设备上采用的不一定是gbk编码,比如{196,227}对应的是“你”,但是在外国的设备上对应的可能是其他字符,那么看上去就如同乱码一样


提示:utf-8中中文“你”对应的是编码是:{228,189,160}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

学编程的闹钟

自愿打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值