从代码到对话:DeepSeek模型如何理解人类语言 【2】

 

UTF-16:可变长编码,使用2个或4个字节来表示一个字符。基本多文种平面(BMP)中的字符使用2个字节,而辅助平面的字符则需4个字节。

Unicode编码与UTF-16的编码的对应关系:

Unicode小于0x10000

UTF-16使用2个字节,直接使用Unicode码

Unicode大于0x10000

UTF-16使用4个字节,这4个字节分成前后两部分,每个部分各2个字节。在这两个字节中,前六位的二进制数分别固定为110110和110111,而后十位的二进制数则代表Unicode码减去0x10000后的结果,其中yy yyyyyyyy 和xx xxxxxxxx分别表示这两部分的数值。

例如,“川”字的Unicode码为0x17B8C,在UTF-16编码格式中表示为110110yy yyyyyyyy 110111xx xxxxxxxx。由于0x17B8C大于0x10000,因此需要先减去0x10000,得到0x7B8C。将0x7B8C转换成二进制,得到111 1011 1000 1100。然后将其拆分成y 10位(不足10位补0)00 0001 1110和x 10位11 1000 1100。按照从右至左的顺序,填充到y和x的位置,结果为11011000 00011110 11011111 10001100。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值