现在讲述python网络爬虫的资料已经很多啦,由于项目的需求,需要收集人脸相关数据集,于是便考虑用爬虫来补充部分数据集,下面将结合尚街拍(https://www.jiepai.net/)网站的具体爬虫过程来对python requests 具体爬虫过程进行梳理总结。
1、首先对网站进行一个简单分析,结合目的本身,由于本需求重点关注的是人脸相关数据,所以选取网站上的明星穿衣子网页作为重点爬取对象(https://www.jiepai.net/dapei/mingxingchuanyi)
2、分析该网页(https://www.jiepai.net/dapei/mingxingchuanyi),可以发现该网页是分页展示的,并且每一页都包含很多对象的素材,因此第一要务就是要获取所有的对象连接
本人爬取的时候,该网页已经有607页,该网站是再持续更新中。。。