字符串及处理之一: 编码模式

本文详细介绍了几种常见的字符编码模式,包括单字节字符集(如ANSI)、多字节及双字节字符集、Unicode、UTF-8等,并对它们的应用场景进行了说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

编码模式:
1,单子节字符集(single-byte character set or SBCS)
ANSI 字符集就是sbcs的一种
2,多字节字符集(multi-byte character set or MBCS)
在双字节字符集中,字符串中的每个字符可以包含一个字节或包含多个字节。
3,双字节字符集(double-byte characters set or DBCS)
在双字节字符集中,字符串中的每个字符可以包含一个字节或包含两个字节。
DBCS是MBCS的一种,而且由于目前使用多于两个字节的存储空间来表示一个字符的应用场合不大,所以一般提到mbcs,就是指dbcs.
4,Unicode。
Unicode是一种所有的字符都使用两个字节编码的编码模式 Unicode字符有时也被称作宽字符.
注意,Unicode不能被看作MBCS。MBCS的独特之处在于它的字符使用不同长度的字节编码。
Unicode字符串使用两个字节表示的0作为它的结束标志。

5,UTF-8
UTF-8使用固定的三个字节表示一个字符
UTF-8的使用场合很多都是用来在网络上传输,比如网页的传输,url的传输等等
其原因是如果本地系统使用了unicode来表示字符,那么因为网络传输是以字节为单位的,所以某字节为0的话,将会干扰正常传输
6,GB2312
7,BIG5

我的理解:
理解两个概念:
一个概念用来解释 每一个字符要用几个字节表示,每一个字符串中包含的字符的表示方法是否单一,上面的1,2,3,4就是根据这个分类的
另一个概念是用来解释字符串中字符集的编码格式,比如是gb2312的编码,还是big5的编码 ,上面5开始的就是根据这个进行分类的
这属于两个层次的概念,然而有时候这两个层次可以合并,就像传统的ansi字符集,提到这个马上知道他使用了sbcs来表示字符串,也马上知道他使用了ansi的编码格式
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值