[python3.6]爬虫实战之爬取淘女郎图片

本文介绍了使用Python3.6进行爬虫实战,目标是抓取淘女郎图片。首先设定了抓取美女照片的小目标,包括创建美女文件夹、抓取31个美女信息及每名美女10张照片。然后讲述了抓取过程,通过分析网页动态加载,发现数据是通过xhr请求获取的。虽然最初误以为数据是json格式,但最终确定xhr信息是抓取的关键。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原博主地址:http://cuiqingcai.com/1001.html

原博是python2.7写的,并且随着淘宝代码的改版,原博爬虫已经不可用。

参考 http://minstrel.top/TaoBaoMM 这位博主跟我一样最近正在学习爬虫。


1 定个小目标

lcw先生听说我即将爬取美女的照片,两眼都亮了。没错,我要给他福利了(其实女生也很喜欢美女)。

所以,定个最小的目标:

1.在F盘建立美女文件夹

2.文件夹下按照淘女郎美人库默认美人排序,抓取31个美女的信息(因为一页默认是30个人,不至于太少,也能太多要不然抓取时间太多,lcw的破电脑也装不下)

3.每个以美人名字命名的文件夹下,取10张照片(内容小,别介)

2 抓取过程

进入淘女郎首页之后,点击找模特,进入我们需要爬取的页面。可以看到页面上是默认tag在美人库上。也即是有30位默认的美人出现在页面。每一位有相应的照片以及个人信息。30位美人下方,是页码和总美人数的信息。因为我也是web出身。像这种信息和数量都有变化的信息展示,肯定不是静态页面。一般都是通过js动态加载而来。通过开发者工具(google浏览器,F12, Json handle插件 感谢小伙伴告诉我这个插件),动态监控network.在查找加载信息的http时,我犯了个错误,一直以为返回的信息应该是json信息。这是我们post返回结果最常见的格式,但事实是返回的xhr信息。这就是抓包工具用得少的下场,哭。

明确了type是xhr后,很快找到了这个:

  https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8
在headers里面 fromdata中查看source可以看到参数列表:

q=&viewFlag=A&sortType=default&searchStyle=&searchRegion=city%3A&searchFansNum=¤tPage=2&pageSize=100

我们只需要currentPage这个参数。
   

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值