一起学爬虫（Python） — 05

最新推荐文章于 2020-12-05 20:37:16 发布

原创

最新推荐文章于 2020-12-05 20:37:16 发布 · 1.3w 阅读

157

200 ·

CC 4.0 BY-SA版权

文章标签：

#python #xpath #爬虫

本文介绍了一位爬虫初学者如何使用Python和XPath解析网页，爬取动漫图片的过程。通过分析网页结构，利用XPath定位图片链接，解决图片URL的动态变化问题，并通过错误处理确保程序稳定运行。

一起学爬虫（Python） — 19 年轻人，进来学自动化

今天我们爬图片

开始
- 分析
- 实践

开始

大家好鸭，又是新的一天！
无论做什么事情，都要恪守初心，要知道我们是为了什么才学爬虫的，比如我，就是为了爬取一些好看的图片……
所以，今天带大家一起爬一些好看的，图片~
话不多说，直接高速！
http://www.win4000.com/zt/dongman.html
作为一个老二刺猿，当然是直接找动漫图片~

分析

在这里插入图片描述
打开页面后往下拉，发现图片是真滴好看……
里面还有我的02老婆~
认真分析，看到这一张张的图片，我们是不是可以认为这些图片是放在一个列表里的，所以一会我们爬取这个列表，然后把每一张图片遍历出来就可以了，对吧！（遍历大意：用循环把列表中每一个元素列出来）
好，打开我们的抓包工具！（审查元素或检查）
在这里插入图片描述
找到图片所对应的位置，发现直接就有图片了，那我们直接爬取整个页面，再把爬取到的数据筛选一下，只要图片的网址然后再单独下载不就好啦~
这个想法是对的，但是打开那个网址会发现……

我们上当了！
这只是一个缩略图，那么真正的图片在哪里呢？学过html的同学应该能直接找到，没学过的呢，就跟着小泽一起往下走。
我们点开某一张图片，会发现跳到了另一个页面。

在这里插入图片描述
在新的页面，我们会发现有个下载按钮，还有个左右切换的按钮。
先点击一下下载按钮试试……

好家伙，直接好家伙。
一看后缀名就知道，我们又上当了！
这个按钮或许会给你一种错觉，跟昨天的翻译按钮一样，会不会返回一个图片，我们只要接收了再保存就好了。
这个想法是没错的，但是奈何这个网站太狡猾，实在是狡猾！
这个时候打开抓包工具看一下我们要的东西还有没有。
在这里插入图片描述
找到你啦，色图美图！
我们再打开这个链接，看一下是不是真正的大图。

可以了可以了，够大了！
那么我们现在就是找到了真正存放图片的地址，但是还有一个地方不能忽略，来回切换的那个按钮，到底有什么用？
我们点一下，注意观察网址的变化！
在这里插入图片描述

发现规律了没，网址每一次都会在177098_后面加1，那么177098_1是不是就是第一张图片呢？大家可以试一下。
试完你就会发现还真的是诶，好神奇！
但是还有个问题，这一组图片是8张，也就是177098_1到177098_8，那么其他的图组是不是呢（一开始还以为是一张一张图片，上当啦，hh）
在这里插入图片描述
好的，果然让我们发现一个，那就是说每组图组里面图片的数量是不固定的，只爬第一张怎么会满足呢！
这样想，如果我们上面那个图组出现177098_9会怎么样？
程序不出意外应该会报错，那我们只要建立一个死循环，在报错的时候就终止循环，就可以不用管它有多少张，我全都要的下载下来啦！
思路很明确，但是实现起来…