详细分析WideCharToMultiByte()和MultiByteToWideChar()的源码

程工助力英语中国话

于 2025-03-28 10:27:59 发布

阅读量442

点赞数 12

分类专栏： Visual C++ 2017 从入门到精通文章标签： MFC

本文链接：https://blog.youkuaiyun.com/qq_20725221/article/details/146587949

版权

Visual C++ 2017 从入门到精通专栏收录该内容

263 篇文章

订阅专栏

书籍：《Visual C++ 2017从入门到精通》的2.7 字符串

环境：visual studio 2022

内容：几个字符串类型->（将单字节char*转换为宽字节wchar_t *）（将宽字节wchar_t* 转换为单字节char *）

MultCharToWideChar()

//将 多字节字符串（std::string 类型）转换为 宽字符字符串（std::wstring 类型）
wstring MultCharToWideChar(string str)
{
	/*获取目标缓冲区大小
		参数说明：
		CP_ACP：指定使用系统 ANSI 代码页进行转换。
		0：dwFlags 参数默认值，表示按系统默认方式处理字符（如不转换组合字符）。
		str.c_str()：源多字节字符串的指针。
		str.size()：源字符串的字节数（非字符数）。
		NULL 和 0：表示不执行实际转换，仅返回目标缓冲区所需的大小（以宽字符数为单位）。
		返回值 len：转换后的宽字符串长度（含终止符 \0）。*/
	int len = MultiByteToWideChar(CP_ACP, 0, str.c_str(), str.size(), NULL, 0);


	/*动态分配目标缓冲区
		内存分配：根据 len 分配 len + 1 个 TCHAR（宽字符）的内存空间，最后一个字节用于存放终止符 \0。
		注意：
		TCHAR 是 MFC 中的宏定义，编译时根据项目配置（Unicode / ANSI）自动转换为 wchar_t 或 char。若项目为 Unicode，TCHAR 即为 wchar_t，否则为 char。
		若项目为 Unicode，此分配方式正确；若为 ANSI，TCHAR 为 char，会导致类型不匹配。*/
	TCHAR* buffer = new TCHAR[len + 1];

	/*执行字符串转换
		参数说明：
		str.c_str()：源字符串指针。
		str.size()：源字符串的字节数（假设为单字节编码，如 ANSI）。
		buffer：目标宽字符缓冲区。
		len：目标缓冲区的最大宽字符数。
		关键点：
		若源字符串为多字节编码（如 UTF - 8），str.size() 可能不等于实际字符数，导致转换错误。
		若转换失败，函数返回 0，但代码未对此进行处理。*/
	MultiByteToWideChar(CP_ACP, 0, str.c_str(), str.size(), buffer, len);

	//添加终止符
	buffer[len] = '\0';			//显式添加宽字符终止符 \0，确保 wstring 构造函数能正确解析字符串。

	//构造并返回结果
	/***wstring 构造** ：将 buffer 中的宽字符逐个追加到 return_value 中。
		内存释放：使用 delete[] 释放动态分配的内存，避免泄漏。*/
	wstring return_value;
	return_value.append(buffer);
	delete []buffer;
	return return_value;
}

WideCharToMultiChar()

//将 宽字符字符串（std::wstring 类型）转换为 多字节字符串（std::string 类型）
string WideCharToMultiChar(wstring str)
{
	string return_value;

	//获取目标缓冲区大小
	/*参数说明：
		CP_ACP：指定使用系统 ANSI 代码页进行转换（如 GBK、GB2312）。
		str.c_str()：源宽字符串的指针（const wchar_t* ）。
		str.size()：源字符串的宽字符数量（size_t 类型）。
		NULL 和 0：表示不执行实际转换，仅返回目标缓冲区所需的大小（以字节为单位）。
		返回值 len：转换后的多字节字符串长度（含终止符 \0）。*/
	int len = WideCharToMultiByte(CP_ACP, 0, str.c_str(), str.size(), NULL, 0, NULL, NULL);

	//动态分配目标缓冲区
	/*内存分配：根据 len 分配 len + 1 个字节的内存空间，最后一个字节用于存放终止符 \0。
		潜在风险：
		内存泄漏：若后续转换失败或异常退出，需手动释放内存（delete[]）。
		跨平台问题：char 类型在 Unicode 编译模式下可能无法正确处理多字节编码（如 UTF - 8）。*/
	char* buffer = new char[len + 1];

	/*执行字符串转换
		参数说明：
		str.c_str()：源宽字符串指针。
		str.size()：源宽字符数量。
		buffer：目标多字节缓冲区。
		len：目标缓冲区的最大字节数。
		关键点：
		代码页限制：CP_ACP 依赖系统默认编码，若源字符串为 UTF - 16（如 Unicode 项目），可能导致乱码。
		错误处理缺失：未检查返回值，若转换失败（如缓冲区不足），函数返回 0 但代码继续执行。*/
	WideCharToMultiByte(CP_ACP, 0, str.c_str(), str.size(), buffer, len, NULL, NULL);

	/*添加终止符
		作用：显式添加多字节字符串终止符 \0，确保 std::string 构造函数能正确解析字符串。
		冗余性：WideCharToMultiByte 本身会自动添加终止符，此步骤冗余但安全。*/
	buffer[len] = '\0';

	/*构造并返回结果
		** std::string 构造** ：将 buffer 中的多字节字符逐个追加到 return_value 中。
		内存释放：使用 delete[] 释放动态分配的内存，避免泄漏。*/
	return_value.append(buffer);
	delete []buffer;
	return return_value;
}