在使用VS编程时,在项目设置中有一个关于字符集的选项。一是Unicode字符集(VS默认的字符集),二是多字节字符集。本文围绕这两个字符集做一简单介绍。
一、先说一下多字节字符集
最早的字符集是ANSI的ASCII字符集,它开始使用7位后来使用8位表示包括英文字母、数字、标点符号、制表符、控制符等共计256个字符。后来,随着各国在ASCII的基础上制定本国的字符集,这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集或者MBCS(多字节字符集)。例如:汉字GB-2312编码就是使用ASCII字符集中大于128的字符两两组合表示一个汉字的。
二、介绍一下Unicode
将不同国家各自的字符编码方式,一步一步进行统一形成了Unicode 编码。Unicode 为每个字符提供一个号码,称为码点,它几乎囊括了世界上所有文字的字符。Unicode 编码一共包含了100多万个字符,码点范围是 U+0000 到 U+10FFFF(16进制0000至10FFFF)。Unicode编码可以认为是一张纸上的编码表,具体在计算机中怎样实现呢?Unicode提供了三种计算机编码方法:
a.UTF-8(使用1个到4个字节表示一个码点);
b.UTF-16(使用2个字节或4个字节表示一个码点);
c.UTF-32(使用4个字节表示一个码点)。
三种编码方式中使用最为广泛的是UTF-8,VS中默认的“使用Unicode字符集”就是UTF-8。在UTF8中表示英语字符的编码方法与ASCII(ANSI)编码相同。
说到这里,上述两种字符集给人的感觉
C语言从头学53——字符集
于 2024-08-28 19:43:54 首次发布