"汉字"
GBK编码:BA BA , D7 D6
UTF-8编码:E6 B1 89, E5 AD 97
UTF-16BE编码:6C 49, 5B 57
两种常用编译器gcc,cl中对Unicode字面值的实现:
GCC
gcc中跟编码方式转换有关的三个编译选项:
- -finput-charset=charset,此选项指定源文件本身的编码方式,默认为UTF-8(有无BOM均可)。例如当我们的源代码文件保存为GBK时,则也应当将此选项的值指定为GBK。
- -fwide-exec-charset=charset,此选项指定宽字符或宽字符串的字面值常量的内部编码方式,默认为UTF-32或UTF-16,对应wchar_t的宽度。wchar_t的宽度依赖平台实现,windows 实现为2字节宽,linux 实现为4字节宽。例如指定此选项为GBK,则宽字符或宽字符串常量将会以GBK编码方式存储而不是默认的UTF-32或UTF-16编码方式。
- -fexec-charset=charset,此选项指定窄字符或窄字符串的字面值常量的内部编码方式,默认为UTF-8。例如指定此选项为GBK,则窄字符或窄字符串常量将会以GBK编码方式存储而不是默认的UTF-8编码方式。
有了以上铺垫,下面两条语句的意义就很清楚了:
注1:gcc在4.4.0版本以前存在bug,不能编译带BOM的UTF-8源文件。参见http://gcc.gnu.org/bugzilla/show_bug.cgi?id=33415
注2:Qt自带的mingw

本文详细介绍了GCC和CL编译器如何处理不同编码方式的源文件,包括-GCC的-finput-charset、-fwide-exec-charset、-fexec-charset选项以及CL的自动识别机制。在GCC中,可以通过这些选项指定源文件、宽字符和窄字符的编码方式,而CL则固定使用ANSI和UTF-16编码。C++1x为应对编码混乱引入了新的字符串字面量表示法。
最低0.47元/天 解锁文章
1163

被折叠的 条评论
为什么被折叠?



