C++ u8

最新推荐文章于 2025-05-08 15:38:21 发布

weixin_34128237

最新推荐文章于 2025-05-08 15:38:21 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

文章标签： c/c++ 数据库开发工具

原文链接：http://www.cnblogs.com/thomas76/p/8609946.html

本文介绍了在C++中如何将不同编码格式的字符串转换为UTF-8编码，并讨论了在Windows环境下使用Boost库进行编码转换的方法。同时，文章还探讨了在控制台和数据库中正确显示和存储字符串所需的字符集一致性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

考虑一个问题，如何获得utf8的字符串？

#include <boost/locale.hpp>
int main() 
{
    std::string gbk_str = "你好";
    std::string utf8 = boost::locale::conv::to_utf<char>(gbk_str, "GBK");
}

在windows环境下的vs20xx中，"你好"存储在gbk_str中的编码格式是GB2312。所以需要一个转换操作，才能得到utf8字符串。

C++17到来后，出现了u8

std::string utf8 = u8"你好";

这里注意的一个问题是：数据，和处理数据的程序的一致性。

把字符串送到控制台显示，想要不得到乱码，必须符合控制台当前选择的字符集。

把字符串送到数据库（例如mysql），想要不报错，也必须符合数据库字段中选择的字符集。

对于程序源文件，想要让开发工具正常显示程序文本中的字符，也必须是源文件存储的字符与开发工具当前选定的字符集一致。

std::wstring str = L"你好";

str在内存中将以UTF16编码存在，占用3个short的空间。如何在windows下输出到控制台？

std::wstring str = L"你好";
std::wcout.imbue(std::locale(""));
std::wcout << str << std::endl;

必须先让wcout切换到当前默认的locale，因为当前的操作系统是中文，所以wcout知道了应该把国际UNICODE码转为中国本地的GB2312码。

把str通过MySQLAPI接口发送到数据库，必须先转换成utf8编码。

看来，这些过程还是比较麻烦的。如果现在按照utf8 everywhere的思想，让各个子系统全部utf8化，这样可以减少很多不必要的错误。

大趋势就是utf8化。

转载于:https://www.cnblogs.com/thomas76/p/8609946.html