通过XML解析，对pandas的DataFrame.append()的思考及对大文件解析加速的方法

最新推荐文章于 2023-04-16 19:47:47 发布

原创

最新推荐文章于 2023-04-16 19:47:47 发布 · 3.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#xml #python #pandas #DataFrame #append

在处理大量XML数据并使用pandas DataFrame.append()时，发现性能随着数据增加显著下降。分析原因是append操作的频繁导致时间消耗增加。为解决此问题，引入固定大小的中间容器减少append次数，实验表明这种方法使处理速度更均匀。调整中间容器的最大长度(MAXLEN)会影响整体性能，找到合适的MAXLEN值可进一步优化处理速度。

接上一篇文章，XML结构依旧，但是这次Vv的条数非常多，10万左右，按照以下第一种python代码运行，竟然需要40分钟之久，完全不可接受，需要寻找原因，改变方法！

<?xml version="1.0" encoding="UTF-8"?>
<File xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="FileFormat.xsd">
  <FileHeader>
    <DateTime>2016-01-06T03:30:10+08:00</DateTime>
  </FileHeader>
  <Objects>
    <ObjectType>EutranCellTdd</ObjectType>
    <FieldName>
      <N i="1">a</N>
      <N i="2">b</N>
      <N i="3">c</N>
      <N i="4">d</N>
      <N i="5">f</N>
      <N i="6">g</N>
      <N i="7">h</N>