Libxml2中的中文问题的解决 [转]

本文详细介绍了在使用Libxml2库处理XML文件时遇到的中文编码问题,强调了需要将XML文件转换为UTF-8编码的重要性。通过引入ICONV库,作者提供了从UTF-8到GB2312以及反向转换的函数,并给出了创建带有中文内容XML文件的C++代码示例。在XML处理和编码转换中,正确转换编码是避免乱码的关键。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Libxml2中的中文问题的解决 [转]

 时间:2008-12-17

转自:C++的XML编程经验――LIBXML2库使用指南.

http://www.blogjava.net/wxb_nudt/archive/2007/11/18/161340.html

 

Libxml2中默认的内码是UTF-8,所有使用libxml2进行处理的xml文件,必须首先显式或者默认的转换为UTF-8编码才能被处理。

要在xml中使用中文,就必须能够在UTF-8和GB2312内码(较常用的一种简体中文编码)之间进行转换。Libxml2提供了默认的内码转换机制,并且在libxml2的Tutorial中有一个例子,事实证明这个例子并不适合用来转换中文。

所以需要我们显式的使用ICONV来进行内码转换,libxml2本身也是使用ICONV进行转换的。ICONV是一个专门用来进行编码转换的库,基本上支持目前所有常用的编码。它是glibc库的一个部分,常常被用于UNIX系统中。当然,在windows下面使用也没有任何问题。前面已经提到了ICONV的安装和使用方法,这里主要讲一下编程相关问题。

本节其实和xml以及libxml2没有太大关系,你可以把它简单看作是一个编码转换方面的专题。我们仅仅需要学会使用两个函数就可以了,即从UTF-8转换到GB2312的函数u2g,以及反向转换的函数g2u,源代码在wxb_codeConv.c中:

/********************************************************************

    created:   2007/11/15

    created:   15:11:2007   10:30

    filename: wxb_codeConv.c

    author:       Wang xuebin

    depend:       iconv.lib

    build:     不需要build,被包含到其它源代码中

    purpose:   提供从UTF-8到GB2312的内码转换,以及反向的转换

*********************************************************************/

 

#include "iconv.h"

#include <string.h>

//代码转换:从一种编码转为另一种编码  

int code_convert(char* from_charset, char* to_charset, char* inbuf,

               int inlen, char* outbuf, int outlen)

{

    iconv_t cd;

    char** pin = &inbuf;  

    char** pout = &outbuf;

    cd = iconv_open(to_charset,from_charset);  

    if(cd == 0)

       return -1;

 

    memset(outbuf,0,outlen);  

 

    if(iconv(cd,(const char**)pin,(unsigned int *)&inlen,pout,(unsigned int*)&outlen) == -1)

       return -1;  

 

    iconv_close(cd);

 

    return 0;  

}

 

//UNICODE码转为GB2312码  

 

//成功则返回一个动态分配的char*变量,需要在使用完毕后手动free,失败返回NULL

 

char* u2g(char *inbuf)  

{

    int nOutLen = 2 * strlen(inbuf) - 1;

    char* szOut = (char*)malloc(nOutLen);

    if (-1 == code_convert("utf-8","gb2312",inbuf,strlen(inbuf),szOut,nOutLen))

    {

       free(szOut);

       szOut = NULL;

    }

 

    return szOut;

}  

 

//GB2312码转为UNICODE码  

 

//成功则返回一个动态分配的char*变量,需要在使用完毕后手动free,失败返回NULL

 

char* g2u(char *inbuf)  

 

{

    int nOutLen = 2 * strlen(inbuf) - 1;

    char* szOut = (char*)malloc(nOutLen);

    if (-1 == code_convert("gb2312","utf-8",inbuf,strlen(inbuf),szOut,nOutLen))

    {

       free(szOut);

       szOut = NULL;

    }

 

    return szOut;

}  

 

使用的时候将这个c文件include到其它源文件中。include一个c文件并不奇怪,在c语言的年代我们常常这么干,唯一的害处的编译链接出来的可执行程序体积变大了。当然这时因为我们这段代码很小的原因,再大一点我就要用dll了。

1.        从UTF-8到GB2312的一个典型使用流程如下:

2.        得到一个UTF-8的字符串szSrc;

3.        定义一个char*的字符指针szDes,并不需要给他动态审判内存;

4.        szDes = u2g(szSrc),这样就可以得到转换后的GB2312编码的字符串;

5.        使用完这个字符串后使用free(szDes)来释放内存。

本文并不准备讲述iconv中的函数细节,因为那几个函数以及数据类型都非常简单,我们还是重点看一下如何在libxml2中使用编码转换来处理带有中文的xml文件。下面是使用以上方法来创建一个带有中文的XML文件的例子程序CreateXmlFile_cn.cpp,源代码如下:

 

/********************************************************************

 

    created:   2007/11/17

    created:   9:11:2007   15:34

    filename: CreateXmlFile.cpp

    author:       Wang xuebin

    depend:       libxml2.lib iconv.lib

    build:     nmake TARGET_NAME=CreateXmlFile_cn

    purpose:   创建一个xml文件,其中包含中文

*********************************************************************/

#include <stdio.h>

#include <libxml/parser.h>

#include <libxml/tree.h>

 

#include <iostream.h>

 

#include "wxb_codeConv.c" //自己写的编码转换函数

 

int main(int argc, char **argv)

{

    //定义文档和节点指针

    xmlDocPtr doc = xmlNewDoc(BAD_CAST"1.0");

    xmlNodePtr root_node = xmlNewNode(NULL,BAD_CAST"root");

 

    //设置根节点

    xmlDocSetRootElement(doc,root_node);

 

    //一个中文字符串转换为UTF-8字符串,然后写入

    char* szOut = g2u("节点1的内容");

 

    //在根节点中直接创建节点

 

    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode1", BAD_CAST "newNode1 content");

 

    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode2", BAD_CAST "newNode2 content");

 

    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode3", BAD_CAST "newNode3 content");

 

    xmlNewChild(root_node, NULL, BAD_CAST "node1",BAD_CAST szOut);

 

    free(szOut);

 

    //创建一个节点,设置其内容和属性,然后加入根结点

 

    xmlNodePtr node = xmlNewNode(NULL,BAD_CAST"node2");

 

    xmlNodePtr content = xmlNewText(BAD_CAST"NODE CONTENT");

    xmlAddChild(root_node,node);

    xmlAddChild(node,content);

 

    szOut = g2u("属性值");

 

    xmlNewProp(node,BAD_CAST"attribute",BAD_CAST szOut);

 

    free(szOut);

 

    //创建一个中文节点

 

    szOut = g2u("中文节点");

 

    xmlNewChild(root_node, NULL, BAD_CAST szOut,BAD_CAST "content of chinese node");

 

    free(szOut);

 

    //存储xml文档

    int nRel = xmlSaveFormatFileEnc("CreatedXml_cn.xml",doc,"GB2312",1);

 

    if (nRel != -1)

    {

       cout<<"一个xml文档被创建,写入"<<nRel<<"个字节"<<endl;

    }

 

    xmlFreeDoc(doc);

 

    return 1;

}

 

编译链接命令如下:

 

nmake TARGET_NAME=CreateXmlFile_cn

 

完成后执行CreateXmlFile_cn.exe可以生成一个xml文件CreatedXml_cn.xml,其内容如下:

 

<?xml version="1.0" encoding="GB2312"?> <root> <newNode1>newNode1 content</newNode1> <newNode2>newNode2 content</newNode2> <newNode3>newNode3 content</newNode3> <node1>节点1的内容</node1> <node2 attribute="属性值">NODE CONTENT</node2> <中文节点>content of chinese node</中文节点> </root>

 

  

 

 

 

 

观察可知,节点的名称、内容、属性都可以使用中文了。在解析、修改和查找XML文档时都可以使用上面的方法,只要记住,进入xml文档之前将中文编码转换为UTF-8编码;从XML中取出数据时,不管三七二十一都可以转换为GB2312再用,否则你很有可能见到传说中的乱码!

评论:在UTF-8与GB2312转换 过程中 如果需转换字节小于等于2 则会失败。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值