QT中文乱码的解析

最新推荐文章于 2025-10-08 15:27:39 发布

原创最新推荐文章于 2025-10-08 15:27:39 发布 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#c++ #qt #qt5

QT 学习笔记专栏收录该内容

11 篇文章

订阅专栏

本文通过演示不同编码方式在内存中的表现，解释了如何在QT中正确处理中文字符以避免乱码。推荐使用QString::fromLocal8Bit()将GB2312编码转换为Unicode。

在使用QT过程中经常会遇到中文乱码问题，我们一般的解决办法是：

（1）QString str = QString::fromLocal8Bit("中文");

（2）QString str = QString（QStringLiteral("中文")）

这样确实解决问题，但是为什么这样就可以解决问题呢？

看完以下的代码就全明白了。

display_data是输出字符串在内存的保存的值。

#include <QTextStream>
//本demo主要是说明GB2312和Unicode在内存中存储方式
//对比两种编码方式的不同
QTextStream cin(stdin, QIODevice::ReadOnly);
QTextStream cout(stdout, QIODevice::WriteOnly);

void display_data(char *buff, unsigned len)
{
    for(int i = 0; i < len; i++)
    {
        cout<< hex << showbase << uppercasedigits << (unsigned char)buff[i] << " ";
    }
    cout << endl;
}
int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    char *buff = "中文";
    display_data(buff, strlen(buff)); //(1)0xD6 0xD0 0xCE 0xC4

    std::wstring ws = L"中文";
    display_data((char *)ws.data(), ws.length() * 2); //(2)0x2D 0x4E 0x87 0x65

    QString qs = "中文";
    display_data((char *)qs.data(), qs.length() * 2); //(3)0xD6 0x0 0xD0 0x0 0xCE 0x0 0xC4 0x0

    QString qs2 = QString::fromLocal8Bit("中文");
    display_data((char *)qs2.data(), qs2.length() * 2);//(4)0x2D 0x4E 0x87 0x65

    return a.exec();
    
}

总结：QString的构造函数会将字符串转换为unicode编码的字符串。如果待处理的字符串含有中文等其他语言的文字，
应该调用QString的静态函数fromLocal8Bit()，将该字符串转化为Unicode编码的字符。
该demo比较了两种不同的构造方式。“中文”这两个汉字在GB2312下的编码为：0xD6D0 0xCEC4,它们的unicode为0x4E2D 0x6587.该demo编程环境采用GB2312编码方案存储C++源文件的中文字符，因为(1)中的字符串常量在内存中以GB2312机内码形式存放。(2)中的前缀“L”将令编译器将GB2312编码的汉字转化为unicode值。由于VS2010运行的机器采用litte endian，因而每个unicode值得高、地位刚好颠倒。(3)的字符串常量也是以GB2312编码方式存放。当其作为参数来构造一个QString对象时，每个字节中的内容会被当做一个字符看待，用QChar类型表示，占用2字节。显然，这种表示方法有问题。为了解决这个问题，(4)调用了QString的成员函数fromLocal8Bit()，将GB2312编码转换为unicode编码，每个unicode值用QChar类型表示。QString的成员函数data()返回一个指针，指向这个QChar序列。显示出来的的字节序列恰好就是"中文"这两个汉字的unicode值。
这段代码说明：对于含有非英语字符的字符串，在C++中应该用前缀“L”将其中的每个字符转换成unicode编码，以wchar_t类型存放。而在Qt中应该使用fromLocal8Bit将其中的每个字符转换为Unicode编码，以QChar类型存放。