让汉语和英语一样长的字符编码

背景

使用UTF-8编码表达相同的意思,需要的字节数,俄语是英语的2倍。

使用UTF-16编码,英语是汉语的3倍。

如何做到“不同语言表达相同意思,所需编码长度大致一样”?本文做出了尝试。

方案

26+262+263=18278,15比特
首字母大写?是单词的结尾?,2比特
共15+2=17比特

汉字有8.5万个,也是17比特

日语有平假名142个,片假名71个,共213个。
213+2132=45582,16比特

世界上有语言6000多个,13比特

13+2+17=32
用32位表示一个汉字,或一到三个英文字母。这么一来,汉语和英语表达相同意思,大体上就一样长了。

若是日语,用13比特表示语言,一个0待定,用1比特表示是汉字还是假名,后边的17比特表示一个汉字,或一两个假名。

举例

slapping$
这个$符号表示单词结束。
上述单词被分解成:
sla ppi ng$
用3个32位编码来表示。

得到一个32位编码,看它的前13位,确定是英语。
再读15比特,从中计算出是哪个字母组合。
再读2比特,确定有无首字母大写,有无结束符。

标点符号

所有标点符号放在一起,算做一种语言。包括英文符号、中文符号、数学符号等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值