将XML文件中的汉字提取出来并保存为txt文件
模式识别作业,老师布置了对汉字的重复率的检测,给的数据库是XML文件,故需要将XML文件中的汉字提取出来,并转成txt文件格式。
编程代码比较简单
我之前在网上找了许多类似的代码,都不是很满足要求,我的师兄直接上手编了一段程序实现该功能。感谢师兄!
XML图片:
代码如下
// An highlighted block
import os
def XML2txt(load_XML, load_txt):
xml_filepath = os.path.abspath(load_XML)
f_XML=open(xml_filepath, mode='r', encoding='UTF-8')
words = []
for i in f_XML.readlines():
for word in i.strip():
if word > chr(255): # if '\u4e00' <= word <= '\u9fff':此代码是直接过滤出汉字而没有标点符号的
words.append(word)
f_XML.close()
a = ''.join(words)
f_txt = open(load_txt, 'w', encoding='utf-8')
f_txt.write(a)
f_txt.close()
if __name__ == '__main__':
load_XML = 'H:\\2474\\2474\\Lcmc\\data\\character\\LCMC_R.XML'
load_txt = 'H:\\2474\\2474\\Lcmc\\data\\character\\LCMC_R.txt'
XML2txt(load_XML, load_txt)