- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 multiprocessing并发、大dataframe切分、
要求:1、要求读取一个大的csv文件(接近2000万行),用于机器学习形成关联2、字段包括 itemid、timestamp3、记录的dataframe,对记录做笛卡尔积,同时timestamp差值超出300秒部分不要,itemid相同时也不要4、单个服务器处理生成数据最终:1、并发multiprocessing2、切分成小dataframe做笛卡尔积(不可避免会有数据缺失)multiprocessing实现数据并发处理process_num = 100split_count = 30
2024-06-07 15:55:12
214
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人