Python爬虫练习笔记——爬取单个网页里的所有图片（入门）

最新推荐文章于 2025-04-29 09:03:21 发布

高大宝呀

最新推荐文章于 2025-04-29 09:03:21 发布

阅读量2w

点赞数 55

分类专栏： python 文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sinat_34937826/article/details/105494749

版权

本文是Python爬虫初学者的练手笔记，详细介绍了如何爬取单个网页中的所有图片。通过分析网页结构，使用requests和BeautifulSoup库获取并解析HTML，再利用urllib将图片下载到本地。文章还提到了一些简单的优化，如过滤无关图片和处理空src。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近闲着，想学一下爬虫 (＾－＾)V ——[手动比耶]
先从简单的练习开始吧~ 爬取单个网页里的所有图片，这个没有什么难点，因为不需要翻页哈哈哈哈。

我很喜欢一些文章中的配图，比如这篇，里面就会有很多电影中的经典截图。
在这里插入图片描述

第一步：分析网页

首先需要了解要爬取网站的页面，查看网页源代码。然后根据网页源代码的结构，想好代码的步骤和思路。

在网页中查看页面的源代码（F12）

先来看一下页面的请求方式：
在开发者模式的Network里找到.html的请求，可以看到请求方式是GET请求，也没有带什么特殊的请求参数之类的~ 比较简单。
（如果没有看到.html的请求，刷新一下页面就出来了）
然后再看代码结构：
（不太熟悉html的小伙伴可以使用圈圈里的小箭头，点一下自己想要看的元素，然后右侧就会自动跳转到该元素对应的代码区域的~四不四很简单）

结合“上下文”简单分析一下就会发现：（有种做阅读理解的感觉hhhhh）
① 这个网页里所有的图片都是放在 <img> 标签里的 src 后面，src后面这个链接就是图片的地址
（可以复制下来在浏览器打开确认一下）
② 图片上方的描述语是放在class="pictext"的 p 标签里的
（曾打算过用这个描述语句作为爬下来的图片的名称的）

这样一来就很简单了
只需要先拿到网页的 HTML 代码，然后把页面里面所有<img> 标签里的 src 后面超链接的内容取出来就行了！

第二步：开始编程

1. 定义库

首先需要用 requests 库来发出一个网络请求：

import requests

然后需要用 BeautifulSoup 来解析和提取 HTML 数据

from bs4 import BeautifulSoup

这里也可以直接import bs4，但代码中每次用的时候都要写上包名bs4，如：bs4.BeautifulSoup 啥啥啥

而from bs4 import BeautifulSoup 是直接将BeautifulSoup 类导入到当前命名空间直接使用，不需要再带包名。因此建议用from bs4 import BeautifulSoup

最后需要还需要用 urllib.request 来将网络对象复制到本地文件

import urllib.request

感觉 urllib.request 和前面导入的 requests有点像呀~ 查了一下资料发现是这样：

最低0.47元/天解锁文章

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。