爬取了信息想用bdp来处理,可坑爹的是这玩意默认自动去重的。
非常不人性化,要解决这个问题。
就是在你的源文件里,csv或者xls之类的,先添加列序号,给你的表格数据每一行都编个号,
这样就不会被自动去重给去掉了。
本文介绍了一种解决BDP平台自动去重问题的方法:通过预先在数据源中添加唯一标识符(如序号),避免数据处理过程中的重复记录被删除,确保数据完整性和准确性。
爬取了信息想用bdp来处理,可坑爹的是这玩意默认自动去重的。
非常不人性化,要解决这个问题。
就是在你的源文件里,csv或者xls之类的,先添加列序号,给你的表格数据每一行都编个号,
这样就不会被自动去重给去掉了。

被折叠的 条评论
为什么被折叠?