在我们利用python做数据分析时,往往会产生较大的数据,这时我们要将数据内容写入文件中一般有两个方法:
1. 利用python的pandas库的数据结构DataFrame将每次处理的结果先存起来,最后等所有的处理过程结束,用DataFrame的方法如to_csv等将内容写入文件
2. 利用outfile.write( )一边处理数据,一边将处理结果写入文件
从实践的情况来看,当写非常大的数据内容到文件时,方法1会消耗大量缓存,最后可能导致死机,而方法2要好很多。
本文介绍在使用Python进行大数据分析时的两种常见数据写入方法:使用pandas的DataFrame存储数据并最终导出,以及边处理边写入的方式。通过实际案例对比这两种方法,指出对于非常大的数据集,直接写入可能比一次性加载更高效。
在我们利用python做数据分析时,往往会产生较大的数据,这时我们要将数据内容写入文件中一般有两个方法:
1. 利用python的pandas库的数据结构DataFrame将每次处理的结果先存起来,最后等所有的处理过程结束,用DataFrame的方法如to_csv等将内容写入文件
2. 利用outfile.write( )一边处理数据,一边将处理结果写入文件
从实践的情况来看,当写非常大的数据内容到文件时,方法1会消耗大量缓存,最后可能导致死机,而方法2要好很多。
1196
465
1795
21万+

被折叠的 条评论
为什么被折叠?