我想知道如何最好地处理用python编写大文件。
我的python代码多次循环运行外部程序(古代Fortran,输入文件格式怪异),读取其输出(单行文件)执行一些非常简单的处理,并写入编译后的输出文件。外部程序执行速度快(大大低于1秒)。import subprocess as sp
f_compiled_out = open("compiled.output", "w")
for i in range(len(large_integer)):
write_input_for_legacy_program = prepare_input()
sp.call(["legacy.program"])
with open("legacy.output", "r") as f:
input = f.readline()
output = process(input)
f_compiled_out.write(output)
close(f_compiled_out)
我可以想到三个选项来生成编译后的输出文件。我已经在做什么了。
在主循环的每个循环上使用with open("comiled.output", "a") as f: f.write(output)打开已编译的
使用awk进行简单的处理,并将输出分类到“compiled.output”结尾。
那么,(1)保持一个大文件的打开并将其写入到文件的末尾,与(2)每次写入时打开并附加到文件,与(3)使用awk进行处理和cat建立“compiled.output”的开销是多少呢。
在任何阶段,整个输出都不需要在内存中。
如果有人能看到任何其他明显的事情,会减缓这一速度,因为N}u循环变大,这也将是可怕的!