chencang-----是使用淘宝API获取数据好,还是利用爬虫去抓取数据好呢

本文分享了如何批量获取淘宝上200多万家店铺的地址,并揭示了一个有趣的发现:某些店铺被错误地分类到了不相关的数码相机类别中。同时讨论了可能存在的数据重复问题,并提出了数据去重的需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章来源:http://tinypig.iteye.com/blog/415103


RT

目前抓了淘宝的200多万家 的店铺地址(URL)了,不知道算不算流氓爬虫。估计爬了他们 95%的店铺地址 ,仅供参考。

 

发现一个搞笑的店铺,整个店铺里都是卖避孕套之类的,分类到了数码相机类里面去了,哈哈

目前不知道taobao会不会把一个店铺分到多个类中,如何会分到多个类中的话,我这数值还要缩减,自己要来排重一下。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值