【框架-MFC】MFC/C++用Char（Byte）读取文件utf-8的文件乱码----解码

少莫千华

于 2013-05-10 21:31:41 发布

阅读量2.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：语言-C++ 文章标签： UTF-8 乱码

本文链接：https://blog.youkuaiyun.com/chenlu5201314/article/details/8912707

语言-C++ 专栏收录该内容

125 篇文章

订阅专栏

本文介绍了一种将UTF-8编码的字符串转换为Unicode编码的C++实现方法。通过详细解析UTF-8编码规则，文章提供了一个具体的转换函数，能够处理不同长度的UTF-8字符，并将其转换为相应的Unicode字符。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

//utf8Str：以字节（char*或者Byte*）读取中文的字符串（乱码）
CString UTF8toUnicode(const char* utf8Str)
{
	UINT theLength=strlen(utf8Str);
	return UTF8toUnicode(utf8Str,theLength);
}

CString UTF8toUnicode(const char* utf8Str,UINT length)
{
    CString unicodeStr;
    unicodeStr=_T("");
 
    if (!utf8Str)
        return unicodeStr;
 
    if (length==0)
        return unicodeStr;
 
  
    WCHAR chr=0;//一个中文字符
    for (UINT i=0;i<length;)
    {
		//UTF8的三种中文格式
        if ((0x80&utf8Str[i])==0) //只占用一个字节
        {
            chr=utf8Str[i];
            i++;
        }
        else if((0xE0&utf8Str[i])==0xC0) //占用两个字节
        {
            chr =(utf8Str[i+0]&0x3F)<<6;
            chr|=(utf8Str[i+1]&0x3F);
            i+=2;
        }
        else if((0xF0&utf8Str[i])==0xE0)//占用三个字节
        {
            chr =(utf8Str[i+0]&0x1F)<<12;
            chr|=(utf8Str[i+1]&0x3F)<<6;
            chr|=(utf8Str[i+2]&0x3F);
            i+=3;
        }
      
        else 
        {
            return unicodeStr;
        }
        unicodeStr.AppendChar(chr);
    }
 
    return unicodeStr;
}

详解见：UTF-8百度百科仔细研究