Unicode字符集与多字节字符集(这里的字符指的是字符变量,统称Char TCHAR WCHAR之类相关的东西

本文详细介绍了ASCII、ANSI(MBCS)、Unicode等字符集的概念及其应用。探讨了Unicode字符集的不同编码形式(UTF-8、UTF-16、UTF-32),并解释了在软件开发中如何选择合适的字符集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

成因:有些国际市场以大字符集来使用日文和中文等语言,所以简单地使用ASCII字符集来表示A,a,B,b……@#*已经不能满足需要了。

Microsoft基础类库 (MFC) 支持以两种方式处理大字符集:

  •     Unicode
  •     多字节字符集 (MBCS)
  1. ASCII字符集属于ANSI编码的一种。各国语言的加入,ASCII显然不能满足了,因此,为了能够表示其它国家的文字,各国在ASCII的基础上制定了自己的字符集,这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集,它们正式的名称应该是MBCS(Multi-Byte Chactacter System,即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础,兼容ASCII 127,他们使用大于128的编码作为一个Leading Byte,紧跟在Leading Byte后的第二(甚至第三)个字符与Leading Byte一起作为实际的编码。这样的字符集有很多,我们常见的GB-2312就是其中之一。
  1. 由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,提出了Unicode字符集它固定使用16 bits(两个字节、一个字)来表示一个字符,共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中,方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输,出现了UTF-8,使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码,它属于Unicode字符集。Unicode字符集有多种编码形式,而ASCII只有一种,大多数MBCS(包括GB-2312)也只有一种。Unicode的最初目标,是用1个16位的编码来为超过65000字符提供映射。但这还不够,它不能覆盖全部历史上的文字,也不能解决传输的问题 (implantation head-ache's),尤其在那些基于网络的应用中。已有的软件必须做大量的工作来程序16位的数据。因此,Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32
  2. 多字节字符(Multi-Byte Char)集,就是说有些非英文字符(ASCII之外)的字符,如中文,日语无法用一个字节表示,所以采用2个字节或者多个字节。这种字符集下,英文字符占用一个字节,而中文占用两个字节
  3. Unicode是一种宽字节字符(WideChar)集,将所有的字符都变成等宽。因此,英文字符就占用2个字节,中文也占用2个字节

 

LPCTSTR:

  • LPCTSTR用来表示你的字符是否使用UNICODE, 如果你的程序定义了UNICODE或者其他相关的宏,那么这个字符或者字符串(你的字符,不是说LPCTSTR)将被作为UNICODE字符串,否则就是标准的ANSI字符串。

msdn定义:A 32-bit pointerto a constant character string that is portable for Unicode and DBCS.

LPCTSTR就是一个指向const对象的指针。LPCTSTR == const TCHAR *

L:表示long指针 ,没有实际意义

P:表示这是一个指针

C:表示这是一个常量

T:这是一个适配宏_T

STR:表示这个变量是字符串

程序定义了UNICODE或者其他相关的宏,这就字符串就是unicode字符串,LPCTSTR = PCWSTR指向一个恒定的Unicode字符串的指针 。同理,PTSTR = PWSTR 指向Unicode字符串的指针;TCHAR =WCHAR表示Unicode字符 。

如果没有相关宏,就是ANSI(或者叫多字节字符集MBCS)字符串。LPCTSTR= LPCSTR;PTSTR = LPSTR;TCHAR = CHAR

 

_T:

  • 这是一个适配宏,如果程序通过条件编译(通过_UNICODE和UNICODE宏)控制实际使用的字符集,就是unicode编码。否则就是ANSI编码。

看这个:

#ifdef   UNICODE   

          typedef   wchar_t  TCHAR;   

#else   

          typedef   unsigned  char   TCHAR;   

#endif   

    

typedef   unsigned   char  CHAR;   

typedef   unsigned   wchar_t  WCHAR;

如果采用unicode编码,TCHAR就是WCHAR =wchar_t

采用ANSI编码, TCHAR就是unsignedchar = CHAR

 

L:

  • 表示字符串资源采用Unicode编码
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值