【编码】Unicode与UTF-8关系

本文深入解析Unicode字符集合,探讨其如何整理并编码世界上的文字系统,以简化电脑的文字呈现与处理。同时,详细介绍了UTF-8作为Unicode的主要编码方式,其可变长特性及互联网上的广泛应用。

Unicode字符集合

Unicode 也称为 UCS(Universal Coded Character Set:国际编码字符集合) 是一个字符集合。

对世界上大部分的文字系统进行了整理,编码,使电脑可以用更为简单的方式来呈现和处理文字。最新的版本 Unicode 11.0 已经包含了 137439 个字符。

 

Unicode 的数量之多,如果完全涵盖它, 需要用 4 个字节来表示,但是计算机存储过程中却不是必须都用 4 个字节来完成。对于有些字符,尤其是编码在前面的字符我们也可以通过 1 个或 两个字节来节省空间。

Unicode 只是一个字符集合,每个字符用一个数字来表示,但是这些数字在计算机内采用什么方式来存储,是全部都是 4 个字节,还是 1 到 4 个字节不等,这就涉及到了字符编码的概念

UTF-8 编码

UTF-8 是使用互联网上使用最广泛的 unicode 编码方式。 UTF-8 只是 Unicode 的一种实现方式,UTF-8 是编码方式,而 Unicode 是字符集合

它是可变长的编码方式,长度从 1 个字节到 4 个字节不等。

 

其他

ISO8859-1,通常叫做Latin-1。是单字节编码,向下兼容ASCII,Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。 而gb2312是标准中文字符集

转载于:https://www.cnblogs.com/itplay/p/10481753.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值