windows API编程之一----MBCS与Unicode码制分析

最新推荐文章于 2024-04-20 09:25:10 发布

原创最新推荐文章于 2024-04-20 09:25:10 发布 · 702 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#windows #api #编程 #语言 #c

Windows编程同时被 2 个专栏收录

21 篇文章

订阅专栏

Windows编程

21 篇文章

订阅专栏

本文探讨MBCS多字节码原理及其与Unicode的关系，解析两者间的转换方法及打印时可能出现的乱码问题解决方案。

本文并不打算讲解Unicode的编码问题，因为本文主要对以下几个问题提一些见解：
1. MBCS多字节码的原理？
2. MBCS与Unicode的关系？
3. MBCS与Unicode的转换？
4. MBCS与Unicode的打印，乱码解决？

早在Windows采用Unicode统一编码进行语言管理之前，Windows为了能够进行非ANSI标准字符的输出，于是采用两个字节来表示这些语言文字。因为这些双字节文字和ANSI是混和在一起的，为了加以区别，Windows将这些字符的最高位置为1（即这些双字节文字的每个字节都>=127），所以这种表示法可以表示 127x127 约一万多种非ANSI文字，其本上可以表示任何一种语言的常用文字了。于是，Windows为每一个区域版本，都制定了分别独立的文字编码，这就是MBCS（多字节码）。

在采用Unicode之后，Windows仍然保留了MBCS技术，只不过它对每一种MBCS与Unicode建立了一种映射关系，当然这是通过Unicode的语言区域码实现的。windows对每个语言区域进行编号，并记录其范围。这样，只要给定这些区域编号，就可以实现任何MBCS与Unicode的转换。

通过windows的Api函数

1》完成Unicode到MBCS的转换

int WideCharToMultiByte(
UINT CodePage,
DWORD dwFlags,
LPCWSTR lpWideCharStr,    //宽字符指针
int cchWideChar,
LPSTR lpMultiByteStr,
int cbMultiByte,
LPCSTR lpDefaultChar,
LPBOOL lpUsedDefaultChar );

2>完成MBCS到Unicode的转换

int MultiByteToWideChar(
UINT CodePage,
DWORD dwFlags,
LPCSTR lpMultiByteStr,
int cbMultiByte,
LPWSTR lpWideCharStr,
int cchWideChar );

注意:

MBCS ASCII等求字节长度使用strlen(str)

求Unicode字符个数使用wcslen(str)

char sz[] = "love中国"; WCHAR ss[] = L"love中国"; //L表示宽字符 int t = strlen(sz); //8 int j = wcslen(ss); //6 int m = sizeof(sz); //9 int n = sizeof(ss); //14 字符个数X2 + 2 (宽字符串依0X0000)结尾 sz内存结构 0012FF24 6C 6F 76 65 love 0012FF28 D6 D0 B9 FA 中国 0012FF2C 00 CC CC CC .烫. ss内存结构 0012FF14 6C 00 6F 00 l.o. 0012FF18 76 00 65 00 v.e. 0012FF1C 2D 4E FD 56 -N齎 0012FF20 00 00 CC CC ..烫