Python爬虫实战之爬取网站全部图片(一)

最新推荐文章于 2024-04-05 14:08:36 发布

转载最新推荐文章于 2024-04-05 14:08:36 发布 · 1.2k 阅读

·

1

·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/qq_33958297/article/details/82314402

本文详细介绍如何使用Python和相关库如Requests、lxml进行图片爬取，包括获取图片地址、图片名称，处理404错误及请求头信息。适用于初学者实践网络爬虫技术。

一.获得图片地址和图片名称
1.进入网址之后

按F12 打开开发人员工具点击elemnts

2.点击下图的小箭头选择主图中的任意一个图片那我们这里点击第一个图片

3.显示控制台为了验证xpath是否正确

4.通过xpath获得a的href 和 title.

(请放大看)我们看到他提示的是有10个我们回到网站中看一下在主页上数一下他确实是10个也就是说我们获得的href 和title是没有任何问题的那么留着为我们后面使用.

5.我们还需要访问这个链接的请求头的信息以备后面操作的时候来使用

这里可以看到没有什么特别的请求头

6.获得每套图里的所有图片.这也是我们的目的所在不然前面那么多工序不是浪费吗。

可以看到我们获得了11个链接地址不要被源码中的文字所迷惑

7.获得相应的请求头

可以发现需要注意的只有一个字段Referer 这里的地址就是我们访问这个页面进来的时候的那个地址只要把那个地址给上就行了

8.对于404的处理如果出现了404那就只有重新请求了

二.编写python代码实现爬取.
1.需要用到的库有:
Requests lxml 如果没有安装的请自己安装一下

2.IDE : pycharm
3.python 版本: 2.7.15

其实原本真的没有下载的，但是我发现很多人应该就是直接复制代码就开始运行，然后就留言说有问题。感觉是不是帖子都没有看直接拖到最下方了，然后就复制完成了。。所以就搞了个下载。

下载地址: https://download.youkuaiyun.com/download/qq_33958297/12195656

————————————————

原文链接：「HarlanHong」https://blog.youkuaiyun.com/qq_33958297/article/details/82314402

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。