xml转csv__fault

最新推荐文章于 2025-06-24 15:52:12 发布

原创最新推荐文章于 2025-06-24 15:52:12 发布 · 635 阅读

0 ·

CC 4.0 BY-SA版权

Coding 同时被 2 个专栏收录

53 篇文章

订阅专栏

DIARY

12 篇文章

订阅专栏

本文介绍了一个使用Python进行XML文件解析并转换为CSV格式的过程。作者尝试了多种方法，包括lxml和xml.dom.minidom等库，但在输出中文内容方面遇到了困难。文中详细记录了所使用的代码片段及遇到的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#encoding=utf-8
import csv
import lxml.etree
from lxml import etree
from io import StringIO
import xml.etree.ElementTree as et



header=('type','ID','Text','PublishData','Code','Keyword')
with open('/home/henson/Desktop/001/output.csv', 'w',encoding='utf-16') as outfile:
    writer = csv.writer(outfile)
    writer.writerow((header))
    #tree = etree.parse("/home/henson/Desktop/001/666.xml")
  #  root = lxml.etree.fromstring(infile)
    #parser = etree.XMLParser(ns_clean=True)
    #tree = etree.parse(("/home/henson/Desktop/001/666.xml"), parser)
    #a=etree.tostring(tree,encoding='utf-8')
    infile='/home/henson/Desktop/001/666.xml'
    tree=et.ElementTree(file=infile)
    root=tree.getroot()
    for PeriodicalPaper in root:
        #print(PeriodicalPaper)
        for Text in PeriodicalPaper:
            Text=Text.findall('Keyword')
            #Keyword=Text.findall('Keyword')
            print(Text)
            row=Text
        writer.writerow(row)

import csv
import lxml
from bs4 import BeautifulSoup
soup=BeautifulSoup('/home/henson/Desktop/001/666.xml','lxml')
header=('type','ID','Text','PublishData','Code','Keyword')
with open('output.csv', 'w',encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow((header))
    #xmlDataFileHandler = open(infile, 'r+')
    #xmlstring = xmlDataFileHandler.read().encode()
    #print(xmlstring)
    #root = etree.fromstring(xmlstring)
    #print(etree.tostring(root))
    #for PeriodicalPaper in root:
     #   print(PeriodicalPaper.tag)
     #   keyword = PeriodicalPaper.find('Keyword')
      #  print(keyword)
       # writer.writerow(keyword)
    print(soup.Text)

from xml.dom.minidom import parseString

def parseXML(fpath):
    tupleList = []
    content = open(r'/home/henson/Desktop/001/666.xml',"r+").read()
    try:
        xmldoc = parseString(content)
    except:
        print ("ill formed xml file")
    DocumentList = xmldoc.getElementsByTagName('PeriodicalPaper')
    for doc in DocumentList:
        Text = doc.getElementsByTagName('Text')
        ID = doc.getElementsByTagName('ID')
        Keyword = doc.getElementsByTagName('Keywords')
        tuple = [Text,ID,Keyword]
        tupleList.append(tuple)
    return tupleList

if __name__ == "__main__":
    ls = parseXML(r"/home/henson/Desktop/001/666.xml")
    for em in ls:
        for e in em:
            print (e[0].firstChild.data)