- 博客(2)
- 收藏
- 关注
原创 pandas实战日志20211115——大型文件处理
背景:user_pay_view表涉及6亿条交易数据,如果直接读数据,则服务器内存很可能吃不消 解决思路:分治法,使用trunk分块读数据,再进行数据预处理或聚合操作 # 分块读取,每次读取一百万条数据 user_pay_chunks = pd.read_csv(r'D:\data_clean\user_pay_new.csv', chunksize=1000000) # 查看每位user_id购买次数 user_pay_cnt = pd.DataFrame() # 创建空的df用于接收处理后
2021-11-15 10:43:21
779
1
原创 pandas实战日志20211114——数据预处理
1、数据预处理——查看空值 # 查看空值的方法 shop.info() # 查看表结构,通过各字段数据类型及数据量 print(shop.isnull().sum()) # 查看各字段空值数量 # 输出结果1 <class 'pandas.core.frame.DataFrame'> RangeIndex: 2000 entries, 0 to 1999 Data columns (total 10 columns): # Column Non-Null Coun
2021-11-15 09:58:32
1363
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人