C++多字节与Unicode之间的转化

本文深入探讨了Unicode标准及其在C语言中的应用,详细介绍了char和wchar_t数据类型,以及如何在C中处理宽字符和Unicode字符串。此外,还讲解了MultiByteToWideChar和WideCharToMultiByte函数的使用,帮助读者理解不同字符编码之间的转换。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2019/8/8
天气:多云
今天是24节气的立秋 天气又收到了台风的影响 接下来这几天应该不会那么热了吧

Unicode

Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

char数据类型

C程序中使用char数据类型来定义和存储字符和字符串
下面的声明定义和初始化一个包含单一字符的变量:

char c = 'A';

定义一个纸箱字符串的指针:

char *p;

因为Windows是一个32位的操作系统,指针变量p需要4个字节的存储空间。还可以如下初始化一个指向字符串的指针:

char *p = "Hello!";

更宽的字符

使用Unicode或者是宽字符并不会改变C语言中的字符数据类型。char类型继续代表一个字节的存储空间,而且sizeof(char)继续返回1.理论上来说,C语言中的一个字节可能长于8位,但是对于大多数人来说,一个字节(因而就是一个char)是8位宽。

C语言中的宽字符是基于wchar_t数据类型的。这个数据类型被定义在多个头文件中,包括WCHAR.H,如下所示:

typedef unsingned short wchar_t;

因此,wchar_t数据类型和一个无符号短整型一样,都是16位宽。
可以用下面的语句来定义一个包含单个宽字符的变量:

wchar_t c = 'A';

还可以如下定义一个已初始化的指向宽字符串的指针:

wchar_t *p = L'Hello!';

大写的字母L(表示长整型)紧接着左引号。这向编译器表明这个字符将使用宽字符存储----也就是说,每个字符占用2个字节。指针变量p还是需要4个字节,但是这个字符需要14个字节—每个字符需要两个字节(Hello! 6*2),再加上最后需要的0的两个字节
同样,还可以如下定义一个宽字符的数组:

static wchar_t a[] = L'Hello!';

这个字符串同样需要14个字节的存储空间,而sizeof(a)也会返回14.你可以索引a数组来得到每个单独的字符,引号之前的那个L非常重要,并且两个符号之间绝对不能有空格。只有有了这个L,编译器才知道你想要字符串以每个字符两个字节的方式存储。当我们看到在定义变量以外的地方使用宽字符的时候,依然会再次看到L紧跟着引号,也可以在单个字符变量前面使用L前缀,表明它们应该被解释为宽字符:

wchar_t = L'A';  //但是通常是不需要的 C编译器会在字符后面加0补齐

宽字符函数库

找一个指向字符串的指针:

char *pc = "Hello!";
//我们可以调用
int iLength = strlen(pc);

宽字符版本的strlen函数被称为wcslen(“宽字符字符串长度”),并定义在STRING.H(也就是strlen被定义的地方)和WCHAR.H中。
strlen的函数声明如下:

size_t __cdecl strlen (const char * str);

而wcslen函数的声明如下:

size_t __cdecl wcslen (const wchar_t * wcs);
wchar_t *pw = L"Hello!";
iLength = wcslen(pw);

让代码通用的一些方法

1.在变成的时候使用TCHAR数据类型,此类型能够根据预编译宏的定义,将其转换为ANSI或者是Unicode

2.预编译宏_MBCS、_UNICODE和UNICODE._MBCS是多字节和ANSI字符串的编译宏。此时TCHAR转换为char. _UNICODE和UNICODE是Unicode编码的预编译宏,TCHAR转换为wchar_t。

3._UNICODE宏用于C运行期库的头文件,UNICODE宏用于Windows头文件。一般同时定义两个宏

如果一个命名为UNICODE的标识符被定义了并且TCHAR.H头文件被包含在你的程序中。_tcslen就被定义为wcslen:

#define _tcslen wcslen

如果UNICODE并没有被定义,那么_tcslen就被定义为strlen:

#define _tcslen strlen

由此类推,TCHAR.H也用一个命名为TCHAR的新的数据类型解决了两个字符数据类型的问题,如果_UNICODE标识符被定义了,TCHAR就是wchar_t:

typedef wchar_t TCHAR;

否则的话,TCHAR就是一个简单的char:

typedef char TCHAR;

MultiByteToWideChar和WideCharToMultiByte

函数简单介绍

涉及到的头文件:
函数所在头文件:windows.h

#inclode<windows.h>

wchar_t类型所需要的头文件:wchar.h

#include<wchar.h>

MultiByteToWideChar()

函数功能:该函数映射一个字符串到一个宽字符(unicode)的字符串。由该函数映射的字符串没必要是多字节字符串。
函数原型:
int MultiByteToWideChar(
  UINT CodePage,
  DWORD dwFlags,
  LPCSTR lpMultiByteStr,
  int cchMultiByte,
  LPWSTR lpWideCharStr,
  int cchWideChar
  );
  
  参数
  1>CodePage:指定执行转换的多字节字符所使用的字符集

这个参数可以为系统已安装或有效的任何字符集所给定的值。你也可以指定其为下面的任意一值:

ValueDescription
CP_ACP ANSIcode page
CP_MACCPNot supported
CP_OEMCPOEM code page
CP_SYMBOLNot supported
CP_THREAD_ACPNot supported
CP_UTF7UTF-7 code page
CP_UTF8UTF-8 code page

2> dwFlags:一组位标记,用以指出是否未转换成预作或宽字符(若组合形式存在),是否使用象形文字替代控制字符,以及如何处理无效字符。你可以指定下面是标记常量的组合,含义如下:

MB_PRECOMPOSED:通常使用预作字符——就是说,由一个基本字符和一个非空字符组成的字符只有一个单一的字符值。这是缺省的转换选择。不能与MB_COMPOSITE值一起使用。

MB_COMPOSITE:通常使用组合字符——就是说,由一个基本字符和一个非空字符组成的字符分别有不同的字符值。不能与MB_PRECOMPOSED值一起使用。

MB_ERR_INVALID_CHARS:如果函数遇到无效的输入字符,它将运行失败,且GetLastErro返回ERROR_NO_UNICODE_TRANSLATION值。

MB_USEGLYPHCHARS:使用象形文字替代控制字符。
组合字符由一个基础字符和一个非空字符构成,每一个都有不同的字符值。每个预作字符都有单一的字符值给基础/非空字符的组成。在字符è中,e就是基础字符,而重音符标记就是非空字符。
标记MB_PRECOMPOSED和MB_COMPOSITE是互斥的,而标记MB_USEGLYPHCHARS和MB_ERR_INVALID_CHARS则不管其它标记如何都可以设置。
一般不使用这些标志,故取值为0时。
3> lpMultiByteStr:指向待转换的字符串的缓冲区。
4> cchMultiByte:指定由参数lpMultiByteStr指向的字符串中字节的个数。可以设置为-1,会自动判断lpMultiByteStr指定的字符串的长度
(如果字符串不是以空字符中止,设置为-1可能失败,可能成功),此参数设置为0函数将失败。
5> lpWideCharStr:指向接收被转换字符串的缓冲区。
6> cchWideChar:指定由参数lpWideCharStr指向的缓冲区的宽字节数。若此值为0,函数不会执行转换,而是返回目标缓存lpWideChatStr所需的宽字符数。
返回值:
如果函数运行成功,并且cchWideChar不为0,返回值是由lpWideCharStr指向的缓冲区中写入的宽字符数;

如果函数运行成功,并且cchMultiByte为0,返回值是待转换字符串的缓冲区所需求的宽字符数大小。(此种情况用来获取转换所需的wchar_t的个数)

如果函数运行失败,返回值为零。

若想获得更多错误信息,请调用GetLastError()函数。它可以返回下面所列错误代码:

ERROR_INSUFFICIENT_BUFFERERROR_INVALID_FLAGS

ERROR_INVALID_PARAMETERERROR_NO_UNICODE_TRANSLATION

使用方法

1>调用**MultiByteToWideChar()**函数,设置cchWideChar参数为0(用以获取所需要的接收缓冲区的大小)
2>获取输入缓存的大小,作为cchMultiByte的值(这样做是为了节省空间,也可以给cchMultiByte取值为-1(字符串需要以空字符串结尾,否则会出错))
3>分配足够的内存块,用以存放转换后的Unicode字符串:
该内存块的大小由前面对cchWideChar()函数的返回值来决定;(也可以用别的方法,但该方法更节省内存)
4>再次调用MultiByteToWideChar()函数,这次将缓存的地址作为lpWideCharStr参数来传递,并传递第一次调用MultiByteToWideChar()函数时的返回值作为cchWideChar参数的值;
5>使用转换后的字符串
6>释放接收缓冲区占用的内存块;

示例代码:

wstring ANSIToUnicode(const string& str)
{
	int  len = 0;
	len = str.length();
	int  unicodeLen = MultiByteToWideChar(CP_ACP,
		0,
		str.c_str(),
		-1,
		NULL,
		0);
	wchar_t *  pUnicode;
	pUnicode = new  wchar_t[unicodeLen + 1];
	memset(pUnicode, 0, (unicodeLen + 1)*sizeof(wchar_t));
	MultiByteToWideChar(CP_ACP,
		0,
		str.c_str(),
		-1,
		(LPWSTR)pUnicode,
		unicodeLen);
	wstring  rt;
	rt = (wchar_t*)pUnicode;
	delete  pUnicode;

	return  rt;
}

WideCharToMultiByte()

函数功能:该函数映射一个unicode字符串到一个多字节字符串
函数原型:
int WideCharToMultiByte(
  UINT CodePage,
  DWORD dwFlags,
  LPCWSTR lpWideCharStr,
  int cchWideChar,
  LPSTR lpMultiByteStr,
  int cchMultiByte,
  LPCSTR lpDefaultChar,
  LPBOOL pfUsedDefaultChar
  );
参数:
MultiByteToWideChar()函数中的参数类似,但是多了两个参数;
lpDefaultCharpfUsedDefaultChar:只有当WideCharToMultiByte函数遇到一个宽字节字符,而该字符在uCodePage参数标识的代码页中并没有它的表示法时,WideCharToMultiByte函数才使用这两个参数。(通常都取值为NULL)

1> 如果宽字节字符不能被转换,该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL(这是大多数情况下的参数值),那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的,因为问号是个通配符。

2> pfUsedDefaultChar参数指向一个布尔变量,如果Unicode字符串中至少有一个字符不能转换成等价多字节字符,那么函数就将该变量置为TRUE。如果所有字符均被成功地转换,那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后,可以测试该变量。

返回值

如果函数运行成功,并且cchMultiByte不为零,返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数;

如果函数运行成功,并且cchMultiByte为零,返回值是接收到待转换字符串的缓冲区所必需的字节数。(此种情况用来获取转换所需Char的个数)

如果函数运行失败,返回值为零。

若想获得更多错误信息,请调用GetLastError函数。它可以返回下面所列错误代码:

ERROR_INSUFFICIENT_BJFFERERROR_INVALID_FLAGS

ERROR_INVALID_PARAMETERERROR_NO_UNICODE_TRANSLATION

示例代码:

string UnicodeToANSI(const wstring& str)
{
	char*     pElementText;
	int    iTextLen;
	// wide char to multi char
	iTextLen = WideCharToMultiByte(CP_ACP,
		0,
		str.c_str(),
		-1,
		NULL,
		0,
		NULL,
		NULL);
	pElementText = new char[iTextLen + 1];
	memset((void*)pElementText, 0, sizeof(char) * (iTextLen + 1));
	WideCharToMultiByte(CP_ACP,
		0,
		str.c_str(),
		-1,
		pElementText,
		iTextLen,
		NULL,
		NULL);
	string strText;
	strText = pElementText;
	delete[] pElementText;
	return strText;
}

Unicode to UTF-8

string UnicodeToUTF8( const wstring& str )
{
 char*     pElementText;
 int    iTextLen;
 // wide char to multi char
 iTextLen = WideCharToMultiByte( CP_UTF8,
         0,
         str.c_str(),
         -1,
         NULL,
         0,
         NULL,
         NULL );
 pElementText = new char[iTextLen + 1];
 memset( ( void* )pElementText, 0, sizeof( char ) * ( iTextLen + 1 ) );
 ::WideCharToMultiByte( CP_UTF8,
         0,
         str.c_str(),
         -1,
         pElementText,
         iTextLen,
         NULL,
         NULL );
 string strText;
 strText = pElementText;
 delete[] pElementText;
 return strText;
}

UTF-8 to Unicode

wstring UTF8ToUnicode( const string& str )
{
 int  len = 0;
 len = str.length();
 int  unicodeLen = ::MultiByteToWideChar( CP_UTF8,
            0,
            str.c_str(),
            -1,
            NULL,
            0 );  
 wchar_t *  pUnicode;  
 pUnicode = new  wchar_t[unicodeLen+1];  
 memset(pUnicode,0,(unicodeLen+1)*sizeof(wchar_t));  
 ::MultiByteToWideChar( CP_UTF8,
         0,
         str.c_str(),
         -1,
         (LPWSTR)pUnicode,
         unicodeLen );  
 wstring  rt;  
 rt = ( wchar_t* )pUnicode;
 delete  pUnicode; 
 
 return  rt;  
}

char* 转换成 LPCTSTR

char ch[1024] = "wo shi ni baba";
int num = MultiByteToWideChar(0,0,ch,-1,NULL,0);
wchar_t *wide = new wchar_t[num];
MultiByteToWideChar(0,0,ch,-1,wide,num);

解析:

num 获得长字节所需的空间

MultiByteToWideChar()表示将s中的字符传递到ps指向的内存中。-1表示传输至s中的’\0’处,num表示传递的字节个数。

LPCTSTR 转换成 char *

wchar_t widestr[1024] = L"wo shi ni yeye";
int num = WideCharToMultiByte(CP_OEMCP,NULL,widestr,-1,NULL,0,NULL,FALSE);
char *pchar = new char[num];
WideCharToMultiByte (CP_OEMCP,NULL,widestr,-1,pchar,num,NULL,FALSE);

LPCTSTR等价于wchar_t

代码下载

<think>我们正在处理用户关于C++中将Unicode字符串(通常指宽字符字符串)转换为多字节字符串(如UTF-8或ANSI)的请求。根据引用资料,我们可以提供几种方法。用户提供的引用中:-引用[2]展示了多字节(ANSI)到Unicode(宽字符)的转换,但我们需要的是反向转换(Unicode多字节)。-引用[4]展示了多字节到宽字符的转换,同样不是我们需要的方向,但提供了使用`mbstowcs_s`的示例,我们可以类比使用`wcstombs_s`。因此,我们需要提供Unicode(宽字符)到多字节的转换示例。这里我们假设用户需要的是转换为ANSI(本地代码页)或者UTF-8。注意,在Windows环境下,我们通常使用Win32API函数,如`WideCharToMultiByte`。此外,也可以使用C标准库函数(如`wcstombs`)或C++库(如`std::wstring_convert`,但注意C++11中已弃用,C++17中移除,所以可能不是最佳选择)。根据引用[4]中提供的思路,我们可以使用`wcstombs_s`(安全版本)或者Win32API的`WideCharToMultiByte`。下面提供几种方法:方法1:使用C标准库函数`wcstombs_s`(适用于ANSI,但要注意本地编码设置)方法2:使用Win32API函数`WideCharToMultiByte`(更灵活,可指定编码,如CP_ACP(ANSI)或CP_UTF8(UTF-8))方法3:使用C++标准库(但考虑到弃用,这里不推荐,不过如果需要跨平台且不使用弃用特性,可以使用第三方库如Boost或Poco)由于用户没有指定目标多字节编码,我们将提供两种常见情况:转换为ANSI(本地代码页)和转换为UTF-8。注意:转换过程中可能会丢失信息(如果目标编码不能表示所有字符),因此需要检查错误。示例1:使用`WideCharToMultiByte`转换为ANSI(本地代码页)示例2:使用`WideCharToMultiByte`转换为UTF-8示例3:使用C标准库`wcstombs_s`转换为本地编码(类似于ANSI)我们将编写三个示例函数。注意:在Windows环境下,我们通常使用`wchar_t`作为宽字符(UTF-16LE),而多字节字符串使用`char`。参考引用[2]和[4]中的函数形式,我们定义类似的函数。示例代码:</think>### C++ Unicode 转换为多字节示例代码 在C++中,Unicode(宽字符)多字节字符之间的转换主要涉及以下两种场景: 1. **UTF-16 ↔ ANSI**(本地代码页) 2. **UTF-16 ↔ UTF-8** 以下是三种实现方式的代码示例: --- #### 方法1:使用 WinAPI `WideCharToMultiByte`(推荐) ```cpp #include <windows.h> #include <string> // Unicode (UTF-16) 转 ANSI (本地代码页) std::string UnicodeToANSI(const std::wstring& wstr) { int len = WideCharToMultiByte(CP_ACP, 0, wstr.c_str(), -1, NULL, 0, NULL, NULL); char* buffer = new char[len]; WideCharToMultiByte(CP_ACP, 0, wstr.c_str(), -1, buffer, len, NULL, NULL); std::string result(buffer); delete[] buffer; return result; } // Unicode (UTF-16) 转 UTF-8 std::string UnicodeToUTF8(const std::wstring& wstr) { int len = WideCharToMultiByte(CP_UTF8, 0, wstr.c_str(), -1, NULL, 0, NULL, NULL); char* buffer = new char[len]; WideCharToMultiByte(CP_UTF8, 0, wstr.c_str(), -1, buffer, len, NULL, NULL); std::string result(buffer); delete[] buffer; return result; } ``` **特点**: - 直接使用Windows API,效率高 - 支持错误处理(最后一个参数可指定替换字符) - 支持多种代码页(`CP_ACP`/`CP_UTF8`) --- #### 方法2:使用 C++11 `<locale>`(跨平台) ```cpp #include <locale> #include <codecvt> #include <string> // Unicode (UTF-16) 转 UTF-8 (C++11标准) std::string UnicodeToUTF8(const std::wstring& wstr) { std::wstring_convert<std::codecvt_utf8<wchar_t>> converter; return converter.to_bytes(wstr); } // 注意:ANSI转换需指定本地化环境 std::string UnicodeToANSI(const std::wstring& wstr) { std::wstring_convert<std::codecvt_byname<wchar_t, char, std::mbstate_t>> converter(new std::codecvt_byname<wchar_t, char, std::mbstate_t>("")); return converter.to_bytes(wstr); } ``` **注意事项**: - `<codecvt>`在C++17中弃用,但在多数编译器仍可用 - ANSI转换需系统支持本地语言环境 --- #### 方法3:使用 C 标准库函数(基础实现) ```cpp #include <cstdlib> #include <string> #include <vector> std::string UnicodeToANSI(const std::wstring& wstr) { size_t len = wcstombs(nullptr, wstr.c_str(), 0) + 1; std::vector<char> buffer(len); wcstombs(buffer.data(), wstr.c_str(), len); return std::string(buffer.data()); } ``` **局限**: - 仅支持当前区域设置的ANSI编码 - 无法处理UTF-8转换 - 线程安全性较低 --- ### 关键概念说明 1. **编码类型** - **Unicode**:Windows中通常指`wchar_t`(UTF-16) - **多字节**: - ANSI:本地代码页(如GBK中文、Shift-JIS日文) - UTF-8:兼容ASCII的Unicode编码 2. **内存差异** ```mermaid graph LR Unicode字符串 -->|每个字符 2/4字节| wchar_t[] 多字节字符串 -->|变长编码| char[] ``` 3. **使用场景** - Windows API交互 → 优先用`WideCharToMultiByte` - 跨平台数据交换 → 使用UTF-8编码 - 旧版系统兼容 → ANSI编码 > **重要提示**:转换时需确保: > 1. 目标缓冲区足够大(通过预计算长度) > 2. 处理转换失败情况(如非法字符) > 3. ANSI编码有字符集限制,中文推荐UTF-8 [^1]: 字节序解析(附C++代码示例) [^2]: C++多字节Unicode之间转化 [^3]: C/C++语言拾遗(三)-多字节字符和Unicode [^4]: windows unicode多字节字符集转换示例
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值