65、Unicode压缩方法解析

html8

于 2025-07-30 14:55:33 发布

阅读量54

点赞数

CC 4.0 BY-SA版权

分类专栏：《数据压缩》：从基础到前沿的全面解析文章标签： Unicode SCSU BOCU-1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/html8/article/details/149847793

《数据压缩》：从基础到前沿的全面解析专栏收录该内容

68 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Unicode压缩方法解析

一、引言

随着计算机技术的发展，早期的ASCII码已无法满足现代计算的需求。自1991年起，Unicode联盟提出并设计了新的字符编码方案，以适应现代硬件和软件的要求。本文将详细介绍两种Unicode压缩方法：SCSU和BOCU - 1。

二、Unicode标准概述

代码点与名称
Unicode标准为每个字符（代码元素）分配一个称为代码点的数字，代码点以十六进制列出并以“U +”开头。例如，代码点U + 0041代表字符“A”，同时每个代码元素还有一个唯一的名称，如U + 0041的名称是“LATIN CAPITAL LETTER A”。
代码分组
相关字符被归为一个脚本，它们被分配连续的代码，形成Unicode的一个连续区域。大多数Unicode代码点是16位（2字节）数字，共有64K（65,536）个这样的代码，但Unicode保留了2048个16位代码以扩展到32位代码。常用字符大多位于基本多语言平面（BMP），BMP中有约6700个未分配的代码点用于未来扩展，代码空间的其他区域还有超过870,000个未使用的补充代码点。
代码空间布局
Unicode从128个ASCII代码U + 0000到U + 007F开始，接着是希腊文、西里尔文、希伯来文、阿拉伯文、印度文等脚本，然后是符号、标点、变音符号、数学符号等。代码空间还包括平假名、片假名、注音符号等，最后是统一的汉字表意文字和现代韩语字母。BMP的末尾有一段保留用于私人使用的代码点，以及一

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。