接上一篇文章,XML结构依旧,但是这次Vv的条数非常多,10万左右,按照以下第一种python代码运行,竟然需要40分钟之久,完全不可接受,需要寻找原因,改变方法!
<?xml version="1.0" encoding="UTF-8"?>
<File xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="FileFormat.xsd">
<FileHeader>
<DateTime>2016-01-06T03:30:10+08:00</DateTime>
</FileHeader>
<Objects>
<ObjectType>EutranCellTdd</ObjectType>
<FieldName>
<N i="1">a</N>
<N i="2">b</N>
<N i="3">c</N>
<N i="4">d</N>
<N i="5">f</N>
<N i="6">g</N>
<N i="7">h</N>

在处理大量XML数据并使用pandas DataFrame.append()时,发现性能随着数据增加显著下降。分析原因是append操作的频繁导致时间消耗增加。为解决此问题,引入固定大小的中间容器减少append次数,实验表明这种方法使处理速度更均匀。调整中间容器的最大长度(MAXLEN)会影响整体性能,找到合适的MAXLEN值可进一步优化处理速度。
最低0.47元/天 解锁文章
33万+

被折叠的 条评论
为什么被折叠?



