源文件编码方式

最新推荐文章于 2024-12-02 11:58:32 发布

原创

最新推荐文章于 2024-12-02 11:58:32 发布 · 1.1w 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#gcc #string #encoding #qt #编译器 #存储

本文详细介绍了GCC和CL编译器如何处理不同编码方式的源文件，包括-GCC的-finput-charset、-fwide-exec-charset、-fexec-charset选项以及CL的自动识别机制。在GCC中，可以通过这些选项指定源文件、宽字符和窄字符的编码方式，而CL则固定使用ANSI和UTF-16编码。C++1x为应对编码混乱引入了新的字符串字面量表示法。

"汉字"

GBK编码：BA BA , D7 D6

UTF-8编码：E6 B1 89, E5 AD 97

UTF-16BE编码：6C 49, 5B 57

两种常用编译器gcc,cl中对Unicode字面值的实现：

GCC

gcc中跟编码方式转换有关的三个编译选项：

-finput-charset=charset，此选项指定源文件本身的编码方式，默认为UTF-8(有无BOM均可)。例如当我们的源代码文件保存为GBK时，则也应当将此选项的值指定为GBK。
-fwide-exec-charset=charset，此选项指定宽字符或宽字符串的字面值常量的内部编码方式，默认为UTF-32或UTF-16，对应wchar_t的宽度。wchar_t的宽度依赖平台实现，windows 实现为2字节宽，linux 实现为4字节宽。例如指定此选项为GBK，则宽字符或宽字符串常量将会以GBK编码方式存储而不是默认的UTF-32或UTF-16编码方式。
-fexec-charset=charset，此选项指定窄字符或窄字符串的字面值常量的内部编码方式，默认为UTF-8。例如指定此选项为GBK，则窄字符或窄字符串常量将会以GBK编码方式存储而不是默认的UTF-8编码方式。

有了以上铺垫，下面两条语句的意义就很清楚了：
char cstr[] = "汉字"; //将"汉字"由-finput-charset指定的编码方式转换成由-fexec-charset指定的编码方式。 wchar_t wstr[] = L"汉字"; //将"汉字"由-finput-charset指定的编码方式转换成由-fwide-exec-charset指定的编码方式。
注1：gcc在4.4.0版本以前存在bug，不能编译带BOM的UTF-8源文件。参见http://gcc.gnu.org/bugzilla/show_bug.cgi?id=33415

注2：Qt自带的mingw

最低0.47元/天解锁文章

博客等级

码龄18年

28
原创

12
点赞

17
收藏

107
粉丝

关注

私信

TA的精选

TA的历史创作历程

分类专栏

C/C++ 7篇
CMake 5篇
XCode Cocoa 10篇
Java
Objective-C 2篇
Python
Qt 1篇
测试
git 2篇
Three20
Misc 1篇

展开全部收起

上一篇：: Category vs Protocol

下一篇：: 坐标系统

目录

展开全部

收起

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。