ANSI、Unicode、UTF-8的那点事儿

本文深入探讨了ASCII码、ANSI编码、Unicode、UTF系列编码的发展历程及其特点,旨在帮助开发者理解不同字符编码在处理全球语言时的优劣与应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ANSI、Unicode、UTF-8的那点事儿


        大千世界,语种繁多,计算机如何表示和处理浩如烟海的字符呢?前辈们解决问题也不可能一步到位,在发展中诞生了多种编码,ASCII码、GB2312、Unicode、UTF-8、UTF-16等,这也造成了我们的困扰。


1、广为人知的ASCII码

        ASCII码是基于拉丁字母的一套电脑编码系统。全称为American Standard Code for Information Interchange,美国信息交换标准代码。ASCII第一次以规范标准的型态发表是在1967年。它主要用于显示现代英语,共定义了128个字符,其中96个字符可以显示,其他32个字符为控制字符无法显示。ASCII码每个字符占一个字节,很容易处理也带来了局限。ASCII的局限在于只能显示26个基本拉丁字母、阿拉伯数目字和英式标点符号,因此只能用于显示现代美国英语(而且在处理英语当中的外来词如naïve、café、élite等等时,所有重音符号都不得不去掉,即使这样做会违反拼写规则)。而EASCII(扩展的ASCII)虽然解决了部份西欧语言的显示问题,但对更多其他语言依然无能为力。


2、形形色色的ANSI编码

         某些语言文字系统(例如日文)的字符集有非常多的符号。但是一个字节最多只能表示256个字符,这是远远不够的。为了解决ASCII码的局限性,需要扩充ASCII码,以显示各个国家和地区的语言字符。于是不同的国家和地区制定了不同的标准,由此产生了GB2312、BIG5、JIS等各自的编码标准。这些编码都属于ANSI编码,一个字符串中的每个字符都是有1个或者2个字节组成的,并且对ASCII码兼容。需要注意的是在不同的系统下ANSI编码是不同的,例如在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码,所以在中文 windows下要转码成gb2312,gbk只需要把文本保存为ANSI 编码即可。而且不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。因为同一个编码值,在不同的编码体系里代表着不同的字。


3、包罗万象的Unicode

        由于ANSI编码各自为阵,同一个文件在不同的系统中打开得到的会是乱码。正是这个原因促使了Unicode的诞生。Unicode是一个很大的集合,将世界上所有的符号都包含其中,现在的规模已经达到100多万个符号。每个符号的编码都是不一样的。这样每个Unicode编码需要4个字节存储。Unicode将纷乱世界全部归一,但也有自身的问题。首先,每个字符需要占用4个字节,对于存储和传输都很消耗资源,其次,它跟现有的ASCII码进行难以兼容。


4、UTF系列

        为了解决Unicode的问题,真正的将Unicode运用到实际中,产生了UTF系列编码。UTF的全称是Unicode Transformation Format,即Unicode的转换格式。


4.1、 UTF-8

        UTF-8将一些字符编码为1字节,一些编码为2字节,一些编码为3字节,一些编码为4字节。值在0x0080以下的字符压缩为1字节,这对美国使用的字符非常适合,也兼容了ASCII码。值在0x0080和0x07FF之间的字符转换为2字节,这对欧洲和中东地区的语言非常适用。值在0x0800以上的字符都转换为3字节,适合东亚地区的语言。代理对(surrogate pair)为4字节。UTF-8是一种相当流行的编码格式。但在值为0x0800及以上的大量字符进行编码的时候,不如UTF-16高效。


4.2、 UTF-16

        UTF-16将每个字符编码为2个字节即16位。Windows使用UTF-16编码,因为全球各地使用的大部分语言中,每个字符很容易用一个16位值来表示,这样一来程序就很容易遍历字符串并计算它的长度。对于少数字符,16位不足以表示,UTF-16支持使用代理,用32位来表示一个字符。由于只有少数应用程序需要表示这些少数字符,所以UTF-16在节省空间和简化编码两者之间提供了很好的折中。


4.3、 UTF-32

         UTF-32将每个字符都编码为4个字节。这种编码很简单,不用处理字节数不定的情况,但是从内存使用的角度来看并不是一种高效的编码。所以,在将字符串保存到文件或者传到网络时,很少使用这种编码,一般在应用程序的内部使用。


5、参考文献

[1] http://zh.wikipedia.org/wiki/ASCII
[2]《Windows核心编程》
[3]《深入理解计算机系统》

资源下载链接为: https://pan.quark.cn/s/abbae039bf2a 无锡平芯微半导体科技有限公司生产的A1SHB三极管(全称PW2301A)是一款P沟道增强型MOSFET,具备低内阻、高重复雪崩耐受能力以及高效电源切换设计等优势。其技术规格如下:最大漏源电压(VDS)为-20V,最大连续漏极电流(ID)为-3A,可在此条件下稳定工作;栅源电压(VGS)最大值为±12V,能承受正反向电压;脉冲漏极电流(IDM)可达-10A,适合处理短暂高电流脉冲;最大功率耗散(PD)为1W,可防止器件过热。A1SHB采用3引脚SOT23-3封装,小型化设计利于空间受限的应用场景。热特性方面,结到环境的热阻(RθJA)为125℃/W,即每增加1W功率损耗,结温上升125℃,提示设计电路时需考虑散热。 A1SHB的电气性能出色,开关特性优异。开关测试电路及波形图(图1、图2)展示了不同条件下的开关性能,包括开关上升时间(tr)、下降时间(tf)、开启时间(ton)和关闭时间(toff),这些参数对评估MOSFET在高频开关应用中的效率至关重要。图4呈现了漏极电流(ID)与漏源电压(VDS)的关系,图5描绘了输出特性曲线,反映不同栅源电压下漏极电流的变化。图6至图10进一步揭示性能特征:转移特性(图7)显示栅极电压(Vgs)对漏极电流的影响;漏源开态电阻(RDS(ON))随Vgs变化的曲线(图8、图9)展现不同控制电压下的阻抗;图10可能涉及电容特性,对开关操作的响应速度和稳定性有重要影响。 A1SHB三极管(PW2301A)是高性能P沟道MOSFET,适用于低内阻、高效率电源切换及其他多种应用。用户在设计电路时,需充分考虑其电气参数、封装尺寸及热管理,以确保器件的可靠性和长期稳定性。无锡平芯微半导体科技有限公司提供的技术支持和代理商服务,可为用户在产品选型和应用过程中提供有
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值