python快速读取大数据1

最新推荐文章于 2021-11-05 15:00:28 发布

转载最新推荐文章于 2021-11-05 15:00:28 发布 · 698 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/lyf136686029/p/9928255.html

文章标签：

#大数据 #python #数据库

本文介绍了一种使用pandas库高效读取大型CSV文件的方法，通过迭代读取和分块处理，有效避免了内存溢出问题，适用于大数据处理场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

 1 rd = pd.read_csv(path7 + u'0501-0914.csv',encoding = 'gbk',iterator = True)
 2 loop =True
 3 dflst = []
 4 i = 0
 5 while loop:
 6     try:
 7         i+=1
 8         df0 = rd.get_chunk(50000)
 9         dflst.append(df0)
10     except StopIteration:
11         loop = False
12 #        print 'stop'
13 df = pd.concat(dflst,ignore_index =True)