原博主地址:http://cuiqingcai.com/1001.html
原博是python2.7写的,并且随着淘宝代码的改版,原博爬虫已经不可用。
参考 http://minstrel.top/TaoBaoMM 这位博主跟我一样最近正在学习爬虫。
1 定个小目标
lcw先生听说我即将爬取美女的照片,两眼都亮了。没错,我要给他福利了(其实女生也很喜欢美女)。
所以,定个最小的目标:
1.在F盘建立美女文件夹
2.文件夹下按照淘女郎美人库默认美人排序,抓取31个美女的信息(因为一页默认是30个人,不至于太少,也能太多要不然抓取时间太多,lcw的破电脑也装不下)
3.每个以美人名字命名的文件夹下,取10张照片(内容小,别介)
2 抓取过程
进入淘女郎首页之后,点击找模特,进入我们需要爬取的页面。可以看到页面上是默认tag在美人库上。也即是有30位默认的美人出现在页面。每一位有相应的照片以及个人信息。30位美人下方,是页码和总美人数的信息。因为我也是web出身。像这种信息和数量都有变化的信息展示,肯定不是静态页面。一般都是通过js动态加载而来。通过开发者工具(google浏览器,F12, Json handle插件 感谢小伙伴告诉我这个插件),动态监控network.在查找加载信息的http时,我犯了个错误,一直以为返回的信息应该是json信息。这是我们post返回结果最常见的格式,但事实是返回的xhr信息。这就是抓包工具用得少的下场,哭。
明确了type是xhr后,很快找到了这个:
https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8
在headers里面 fromdata中查看source可以看到参数列表:
q=&viewFlag=A&sortType=default&searchStyle=&searchRegion=city%3A&searchFansNum=¤tPage=2&pageSize=100
我们只需要currentPage这个参数。