Libxml2中的中文问题的解决 [转]_c++ libxml2中文乱码-优快云博客

本文详细介绍了在使用Libxml2库处理XML文件时遇到的中文编码问题，强调了需要将XML文件转换为UTF-8编码的重要性。通过引入ICONV库，作者提供了从UTF-8到GB2312以及反向转换的函数，并给出了创建带有中文内容XML文件的C++代码示例。在XML处理和编码转换中，正确转换编码是避免乱码的关键。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Libxml2中的中文问题的解决 [转]

时间：2008-12-17

转自：C++的XML编程经验――LIBXML2库使用指南.

http://www.blogjava.net/wxb_nudt/archive/2007/11/18/161340.html

Libxml2中默认的内码是UTF-8，所有使用libxml2进行处理的xml文件，必须首先显式或者默认的转换为UTF-8编码才能被处理。

要在xml中使用中文，就必须能够在UTF-8和GB2312内码（较常用的一种简体中文编码）之间进行转换。Libxml2提供了默认的内码转换机制，并且在libxml2的Tutorial中有一个例子，事实证明这个例子并不适合用来转换中文。

所以需要我们显式的使用ICONV来进行内码转换，libxml2本身也是使用ICONV进行转换的。ICONV是一个专门用来进行编码转换的库，基本上支持目前所有常用的编码。它是glibc库的一个部分，常常被用于UNIX系统中。当然，在windows下面使用也没有任何问题。前面已经提到了ICONV的安装和使用方法，这里主要讲一下编程相关问题。

本节其实和xml以及libxml2没有太大关系，你可以把它简单看作是一个编码转换方面的专题。我们仅仅需要学会使用两个函数就可以了，即从UTF-8转换到GB2312的函数u2g，以及反向转换的函数g2u，源代码在wxb_codeConv.c中：

/********************************************************************

created: 2007/11/15

created: 15:11:2007 10:30

filename: wxb_codeConv.c

author: Wang xuebin

depend: iconv.lib

build: 不需要build，被包含到其它源代码中

purpose: 提供从UTF-8到GB2312的内码转换，以及反向的转换

*********************************************************************/

#include "iconv.h"

#include <string.h>

//代码转换:从一种编码转为另一种编码

int code_convert(char* from_charset, char* to_charset, char* inbuf,

int inlen, char* outbuf, int outlen)

{

iconv_t cd;

char** pin = &inbuf;

char** pout = &outbuf;

cd = iconv_open(to_charset,from_charset);

if(cd == 0)

return -1;

memset(outbuf,0,outlen);

if(iconv(cd,(const char**)pin,(unsigned int *)&inlen,pout,(unsigned int*)&outlen) == -1)

return -1;

iconv_close(cd);

return 0;

}

//UNICODE码转为GB2312码

//成功则返回一个动态分配的char*变量，需要在使用完毕后手动free，失败返回NULL

char* u2g(char *inbuf)

{

int nOutLen = 2 * strlen(inbuf) - 1;

char* szOut = (char*)malloc(nOutLen);

if (-1 == code_convert("utf-8","gb2312",inbuf,strlen(inbuf),szOut,nOutLen))

{

free(szOut);

szOut = NULL;

}

return szOut;

}

//GB2312码转为UNICODE码

//成功则返回一个动态分配的char*变量，需要在使用完毕后手动free，失败返回NULL

char* g2u(char *inbuf)

{

int nOutLen = 2 * strlen(inbuf) - 1;

char* szOut = (char*)malloc(nOutLen);

if (-1 == code_convert("gb2312","utf-8",inbuf,strlen(inbuf),szOut,nOutLen))

{

free(szOut);

szOut = NULL;

}

return szOut;

}

使用的时候将这个c文件include到其它源文件中。include一个c文件并不奇怪，在c语言的年代我们常常这么干，唯一的害处的编译链接出来的可执行程序体积变大了。当然这时因为我们这段代码很小的原因，再大一点我就要用dll了。

1. 从UTF-8到GB2312的一个典型使用流程如下：

2. 得到一个UTF-8的字符串szSrc；

3. 定义一个char*的字符指针szDes，并不需要给他动态审判内存；

4. szDes = u2g(szSrc)，这样就可以得到转换后的GB2312编码的字符串；

5. 使用完这个字符串后使用free(szDes)来释放内存。

本文并不准备讲述iconv中的函数细节，因为那几个函数以及数据类型都非常简单，我们还是重点看一下如何在libxml2中使用编码转换来处理带有中文的xml文件。下面是使用以上方法来创建一个带有中文的XML文件的例子程序CreateXmlFile_cn.cpp，源代码如下：

/********************************************************************

created: 2007/11/17

created: 9:11:2007 15:34

filename: CreateXmlFile.cpp

author: Wang xuebin

depend: libxml2.lib iconv.lib

build: nmake TARGET_NAME=CreateXmlFile_cn

purpose: 创建一个xml文件，其中包含中文

*********************************************************************/

#include <stdio.h>

#include <libxml/parser.h>

#include <libxml/tree.h>

#include <iostream.h>

#include "wxb_codeConv.c" //自己写的编码转换函数

int main(int argc, char **argv)

{

//定义文档和节点指针

xmlDocPtr doc = xmlNewDoc(BAD_CAST"1.0");

xmlNodePtr root_node = xmlNewNode(NULL,BAD_CAST"root");

//设置根节点

xmlDocSetRootElement(doc,root_node);

//一个中文字符串转换为UTF-8字符串，然后写入

char* szOut = g2u("节点1的内容");

//在根节点中直接创建节点

xmlNewTextChild(root_node, NULL, BAD_CAST "newNode1", BAD_CAST "newNode1 content");

xmlNewTextChild(root_node, NULL, BAD_CAST "newNode2", BAD_CAST "newNode2 content");

xmlNewTextChild(root_node, NULL, BAD_CAST "newNode3", BAD_CAST "newNode3 content");

xmlNewChild(root_node, NULL, BAD_CAST "node1",BAD_CAST szOut);

free(szOut);

//创建一个节点，设置其内容和属性，然后加入根结点

xmlNodePtr node = xmlNewNode(NULL,BAD_CAST"node2");

xmlNodePtr content = xmlNewText(BAD_CAST"NODE CONTENT");

xmlAddChild(root_node,node);

xmlAddChild(node,content);

szOut = g2u("属性值");

xmlNewProp(node,BAD_CAST"attribute",BAD_CAST szOut);

free(szOut);

//创建一个中文节点

szOut = g2u("中文节点");

xmlNewChild(root_node, NULL, BAD_CAST szOut,BAD_CAST "content of chinese node");

free(szOut);

//存储xml文档

int nRel = xmlSaveFormatFileEnc("CreatedXml_cn.xml",doc,"GB2312",1);

if (nRel != -1)

{

cout<<"一个xml文档被创建,写入"<<nRel<<"个字节"<<endl;

}

xmlFreeDoc(doc);

return 1;

}

编译链接命令如下：

nmake TARGET_NAME=CreateXmlFile_cn

完成后执行CreateXmlFile_cn.exe可以生成一个xml文件CreatedXml_cn.xml，其内容如下：

<?xml version="1.0" encoding="GB2312"?> <root> <newNode1>newNode1 content</newNode1> <newNode2>newNode2 content</newNode2> <newNode3>newNode3 content</newNode3> <node1>节点1的内容</node1> <node2 attribute="属性值">NODE CONTENT</node2> <中文节点>content of chinese node</中文节点> </root>

观察可知，节点的名称、内容、属性都可以使用中文了。在解析、修改和查找XML文档时都可以使用上面的方法，只要记住，进入xml文档之前将中文编码转换为UTF-8编码；从XML中取出数据时，不管三七二十一都可以转换为GB2312再用，否则你很有可能见到传说中的乱码！

评论：在UTF-8与GB2312转换过程中如果需转换字节小于等于2 则会失败。