ANSI UNICODE char wchar _T L 简述

最新推荐文章于 2023-10-18 11:05:23 发布

转载最新推荐文章于 2023-10-18 11:05:23 发布 · 377 阅读

文章标签：

#transformation #byte #编译器 #api #c

C++ 专栏收录该内容

2 篇文章

订阅专栏

本文深入探讨了从ANSI到MBCS再到UNICODE的字符集演变过程，详细解释了每种字符集的特点及应用背景。重点介绍了UNICODE字符集如何解决大字符表示问题，以及在C++中使用Unicode字符串的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ANSI(MBCS)和UNICODE的前世今生 ANSI是最先采用的字符集，以1Byte表示一个字符，后来为了表示含有音标的字母而产生了变种系列。但是这种字符集最大的问题是，无法表示诸如汉字、日本这样的“大字符” 于是，当初设计ANSI的那批人（瞎猜的，出错勿怪）很天才的设计了一种新的字符集，即后来的MBCS（MBCS中最常用也最常见的是DBCS）。MBCS利用1Byte表示原有的那些字符，并利用2Bytes或更高来表示大字符，于是乎，就可以解决原先的问题了。但是，这个看似高明的方法并不高明。因为某些字符是1Byte，而某些则是2Bytes或更高。程序员在遍历字符串的时候，必须检查下一个字节，才知道正在处理的是小字符还是大字符。这对程序员和项目经理来说，无疑是一场噩梦。内牛满面的科学家通过不断的猜想，建模，设计，最终设计产生了目前最广泛使用的UNICODE字符集。
标准的Unicode称为UTF-16(UTF:UCS Transformation Format )。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8，使用类似MBCS的方式对Unicode进行编码。 (Unicode字符集有多种编码形式)例如“连通”两个字的Unicode标准编码UTF-16 (big endian）为：DE 8F 1A 90而其UTF-8编码为：E8 BF 9E E9 80 9A。

C++中，字符串前面加L表示该字符串是Unicode字符串。
_T是一个宏，如果项目使用了Unicode字符集（定义了UNICODE宏），则自动在字符串前面加上L，否则字符串不变。因此，Visual C++里边定义字符串的时候，用_T来保证兼容性。VC支持ascii和unicode两种字符类型，用_T可以保证从ascii编码类型转换到unicode编码类型的时候，程序不需要修改。

以下是别人的总结：

一、在字符串前加一个L作用:
  如 L"我的字符串" 表示将ANSI字符串转换成unicode的字符串，就是每个字符占用两个字节。
  strlen("asd") = 3;
  strlen(L"asd") = 6;
  二、 _T宏可以把一个引号引起来的字符串，根据你的环境设置，使得编译器会根据编译目标环境选择合适的（Unicode还是ANSI）字符处理方式
  如果你定义了UNICODE，那么_T宏会把字符串前面加一个L。这时 _T("ABCD") 相当于 L"ABCD" ，这是宽字符串。
  如果没有定义，那么_T宏不会在字符串前面加那个L，_T("ABCD") 就等价于 "ABCD"
三、TEXT,_TEXT 和_T 一样的
如下面三语句：
  TCHAR szStr1[] = TEXT("str1");
  char szStr2[] = "str2";
  WCHAR szStr3[] = L("str3");
  那么第一句话在定义了UNICODE时会解释为第三句话，没有定义时就等于第二句话。
  但二句话无论是否定义了UNICODE都是生成一个ANSI字符串，而第三句话总是生成UNICODE字符串。
  为了程序的可移植性，建议都用第一种表示方法。但在某些情况下，某个字符必须为ANSI或UNICODE，那就用后两种方法。

别人的总结2：

你要确定你需要的字符串是宽字符还是窄字符。_T("")是说如果你定义了UNICODE 那么就是L"",没有定义就是"";以下情况用_T（）比较好，其他情况最好别用：
1，用THCAR，LPTSTR，LPCTSTR等tchar数据类型的时候
2，用_tprintf之类的_t版本运行时函数时候
3，像下面这样有w和a版本的api，调用CreateFile的时候
#ifdef UNICODE
#define CreateFile CreateFileW
#else
#define CreateFile CreateFileA
#endif // !UNICODE

CHAR实施上就是unsigned char,WCHAR为宽字符，而TCHAR根据是否支持unicode而不同。
在程序使用sizeof(TCAHR)，当默认设置时，这个值是1；当定义UNICODE宏时，这个值是2。
可以用WideCharToMultiByte和WideCharToMultiByte来进行char和wchar之间的转换，懒得再贴了，具体见：

http://apps.hi.baidu.com/share/detail/23578418