python爬取图片（thumbURL和html文件标签分别爬取）

最新推荐文章于 2025-05-07 17:49:02 发布

疯疯癫癫才自由

最新推荐文章于 2025-05-07 17:49:02 发布

阅读量984

点赞数 9

CC 4.0 BY-SA版权

分类专栏： python爬虫文章标签： python

本文链接：https://blog.youkuaiyun.com/qq_51825761/article/details/135706160

文章介绍了如何在Python中使用requests库获取网页源代码，通过正则表达式或BeautifulSoup解析HTML来提取图片URL，然后下载并保存到指定文件夹中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当查看源代码，发现网址在thumbURL之后时，用此代码:

# 当查看源代码，发现网址在thumbURL之后时，用此代码:

import requests

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
    'Accept-Encoding':'gzip, deflate, br',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2'
}

url = input("请输入你想保存的图片的网址：")
response = requests.get(url, headers = headers)
print(response)
print(response.status_code)

file = input("请输入你想图片保存在的文件夹名称：")

import os
os.makedirs(f'./{file}', exist_ok = True)
# 新建目录，用于存储图片
# def makedirs(name, mode=0o777, exist_ok=False):
# 参数说明：
#     name：用于指定要创建目录的路径。
#     mode：指定目录的模式，默认模式为八进制的 777。类似于 chmod() 方法。
#     exist_ok：可选参数，如果值为 False，当要创建的目录已经存在时，抛出 FileExistsError 异常；如果值为True，
#         当要创建的目录已经存在时，不会抛出异常。默认值为 False。

import re
html = response.text
image_url_list = re.finda