65、Unicode压缩方法解析

Unicode压缩方法解析

一、引言

随着计算机技术的发展,早期的ASCII码已无法满足现代计算的需求。自1991年起,Unicode联盟提出并设计了新的字符编码方案,以适应现代硬件和软件的要求。本文将详细介绍两种Unicode压缩方法:SCSU和BOCU - 1。

二、Unicode标准概述
  1. 代码点与名称
    Unicode标准为每个字符(代码元素)分配一个称为代码点的数字,代码点以十六进制列出并以“U +”开头。例如,代码点U + 0041代表字符“A”,同时每个代码元素还有一个唯一的名称,如U + 0041的名称是“LATIN CAPITAL LETTER A”。
  2. 代码分组
    相关字符被归为一个脚本,它们被分配连续的代码,形成Unicode的一个连续区域。大多数Unicode代码点是16位(2字节)数字,共有64K(65,536)个这样的代码,但Unicode保留了2048个16位代码以扩展到32位代码。常用字符大多位于基本多语言平面(BMP),BMP中有约6700个未分配的代码点用于未来扩展,代码空间的其他区域还有超过870,000个未使用的补充代码点。
  3. 代码空间布局
    Unicode从128个ASCII代码U + 0000到U + 007F开始,接着是希腊文、西里尔文、希伯来文、阿拉伯文、印度文等脚本,然后是符号、标点、变音符号、数学符号等。代码空间还包括平假名、片假名、注音符号等,最后是统一的汉字表意文字和现代韩语字母。BMP的末尾有一段保留用于私人使用的代码点,以及一
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值