将XML文件中的汉字提取出来并保存为txt文件

将XML文件中的汉字提取出来并保存为txt文件

模式识别作业,老师布置了对汉字的重复率的检测,给的数据库是XML文件,故需要将XML文件中的汉字提取出来,并转成txt文件格式。

编程代码比较简单

我之前在网上找了许多类似的代码,都不是很满足要求,我的师兄直接上手编了一段程序实现该功能。感谢师兄!

XML图片:

在这里插入图片描述在这里插入图片描述

代码如下

// An highlighted block
import os


def XML2txt(load_XML, load_txt):
    xml_filepath = os.path.abspath(load_XML)
    f_XML=open(xml_filepath, mode='r', encoding='UTF-8')
    words = []
    for i in f_XML.readlines():
        for word in i.strip():
            if word > chr(255):  # if '\u4e00' <= word <= '\u9fff':此代码是直接过滤出汉字而没有标点符号的
                words.append(word)
    f_XML.close()
    a = ''.join(words)
    f_txt = open(load_txt, 'w', encoding='utf-8')
    f_txt.write(a)
    f_txt.close()


if __name__ == '__main__':
    load_XML = 'H:\\2474\\2474\\Lcmc\\data\\character\\LCMC_R.XML'
    load_txt = 'H:\\2474\\2474\\Lcmc\\data\\character\\LCMC_R.txt'
    XML2txt(load_XML, load_txt)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值