python 爬虫之requests爬取页面图片的url，并将图片下载到本地

Python爬虫：requests抓取网页图片并本地保存

最新推荐文章于 2023-02-19 16:18:46 发布

weixin_34262482

最新推荐文章于 2023-02-19 16:18:46 发布

阅读量5.5k

点赞数 2

CC 4.0 BY-SA版权

文章标签： python 爬虫后端

原文链接：http://www.cnblogs.com/hardykay/p/11009670.html

本文作者hardy分享了如何使用Python的requests库爬取网页上的图片URL，并将其下载保存到本地。他指出img标签src值可能的四种类型，并通过解析HTML获取src值，接着下载并保存图片。

大家好我叫hardy

需求：爬取某个页面，并把该页面的图片下载到本地

思考：

　　img标签一个有多少种类型的src值？四种：1、以http开头的网络链接。2、以“//”开头网络地址。3、以“/”开头绝对路径。4、以“./”开头相对路径。当然还有其他类型，不过这个不做考虑，能力有限呀。

　　使用什么工具？我用requests、xpth

　　都有那些步骤：1、爬取网页

　　　　　　　　　　2、分析html并获取img中的src的值

　　　　　　　　　　3、获取图片

　　　　　　　　　　4、保存

具体实现

import requests
from lxml import etree
import time
import os
import re

requests = requests.session()

website_url = ''
website_name = ''

'''
爬取的页面
'''
def html_url(url):
    try:
        head = set_headers()
        text = requests.get(url,headers=head)
        # print(text)
        html = etree.HTML(text.text)
        img = html.xpath('//img/@src')
        # 保存图片
        for src in img:
            src = auto_completion(src)
            file_path = save_image(src)
            if file_path == False:
                print('请求的图片路径出错，url地址为：%s'%src)
            else :
                print('保存图片的地址为：%s'%file_path)
    except requests.exceptions.ConnectionError as e:
        print(