如果我们想要获取某宝的商品信息或者商品的评论信息的话。可能其中的一条途径就是爬虫了【淘宝商品详情API】。放在以前的话,爬虫还是挺简单的。但是放到现在呢,其实并不容易了。因为现在各个平台的反爬机制都加强了。有的会加强监控的,有的则是会使用一些算法,让你无法通过非浏览器或者app的方式访问到数据。其中淘宝就是,它现在不但需要登录,同时还会设计一些复杂的算法来阻止你使用非合规的手段来访问。
比如下面的这个:
当我们通过浏览器中的F12抓取到了我们搜索的商品的数据的时候,如果我们copy这个json数据的url,然后通过request库进行访问的时候,我们是访问不到。
这是为什么呢,其实这是因为,它设置了sign值,主要就是为了防止爬虫
如果我们想要获取商品的数据,首先第一步就是需要找到这个sign的规律。那么下面我会说如何js逆向去找到这个sign的规律。
第一步:
在搜索框中输入任意想要搜索的内容,比如我这里输入的是“小痰盂”