使用tinyxml生成文件时,出现不同的文件格式问题

在使用TinyXML库生成XML文件时遇到一个问题,即根据输入数据的不同(UTF-8或GBK),生成的文件格式会变为ANSI或UTF-8。尽管在编码设置中都指定了UTF-8,但当接收GBK数据时,文件被记事本识别为ANSI,但显示正常。通过修改TinyXML源码,添加UTF-8 BOM标识,记事本能够正确以UTF-8打开文件。为确保统一编码,解决方案是将GBK数据转换为UTF-8后再写入文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题描述:

最近在编写代码时,出现了用同一个程序生成的xml文件,用记事本打开,居然文件格式不一样,一个是utf-8的,一个是ansi码。


应用场景:

相同的是:程序使用的是tinyxml, encoding都是设置为utf-8

不同的是:utf-8文件,接受的是utf-8数据响应;ansi码接受的是gbk的数据。


最终结果:

最终导致,接受utf-8数据生成是utf-8文件,接受gdk数据生成的是ansi码文件。


如何判定文件类型?

通过记事本打开文件,我通过这篇博文知道记事本如何判定文件格式的,博客地址:http://blog.youkuaiyun.com/hll127/article/details/6938767


疑惑的地方:

接受gbk数据的文件,最终用记事本打开显示属性是ansi码,而不是gdk文件,显示居然是正常的(因为我在文件中指定encoding="utf-8", 按照上篇博文应该要用utf-8打开才对,但是用utf-8打开,必然有乱码,所以肯定是记事本作了手脚)


解惑:

最终通过强制改变tinyxml的源码,指定使用useMicrosoftBOM, 就是在文件头中加入utf-8的标识,最终记事本通过utf-8打开了(通过另存为时,发现文件格式是utf-8的)


解决办法:

为了统一编码格式,只有把gbk编成utf-8再写入文件了。


开源项目TinyXml项目所涉及的字符编码说明如下: 1. TinyXml函数调用接口的字符型参数,仅支持`窄字符`格式(char*),不兼容`宽字符`格式(wchar_t*)。 2. TinyXml函数提供的Xml内容解析功能,仅支持以ANSI编码和UTF8编码的Xml字符串,也即`多字节编码`。 3. TinyXml函数提供的Xml内容解析功能,不支持内容以UTF16编码和UTF32编码的Xml字符串,也即`Unicode编码`。 4. UTF8编码是Unicode编码的一种实现方式,以不定个数的字节来存储一个Unicode码值,支持多国语言文字。 也即,UTF8编码在编码实现上属于`多字节编码`,在编码标准上属于`Unicode编码`。 5. 人类语言中同一个的字符,如果在各种不同的标准如ANSI编码、UTF8编码、UTF16编码和UTF32编码中都存在码值, 就可以相互转换。因为各个标准下的可编码字符容量不同,部分语言字符会在一个编码标准库下存在, 而在另外一个编码标准库下不存在,这精确的相互转换就无法执行,但是仍然有默认字符转换。 -- 6. VC语言,当定义了宏 _UNICODE 后,_T系列宏或函数,以`宽字符`承载UTF16编码。 TinyXml如何提供`宽字符`函数接口,支持解析UTF16编码、UTF32编码标准下的Xml字符串呢? 本项目: - 新增适用于`宽字符`参数的函数接口,调用字符集转换功能,转换为`窄字符`参数,再回调TinyXml原版接口。 - 对于以UTF16编码、或UTF32编码的Xml字符串,转换为UTF8编 --
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值