【爬虫】图片爬取思路

Fx_x

已于 2022-11-22 16:38:36 修改

阅读量915

点赞数 2

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签：爬虫 python

于 2022-10-30 23:11:54 首次发布

本文链接：https://blog.youkuaiyun.com/Fx_2003/article/details/127606211

爬虫专栏收录该内容

8 篇文章

订阅专栏

该博客围绕Python爬虫爬取图片展开。介绍了判断图片直接链接的方法，以及将直接链接图片写入本地的操作。还探讨了在不知直接链接时，通过爬虫获取链接的方式，包括判断数据传输方式、查找直接链接等，并给出爬取图片的代码及运行结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、知道图片的直接链接，怎么写入？

1、怎么判断是否是直接链接？

2、那么知道这个链接，我们怎么写进本地呢？

一、知道图片的直接链接，怎么写入？

1、怎么判断是否是直接链接？

如下图

右击一个图片审查，查看源代码：

复制图片链接

打开该链接我们可以看到：

说明该链接就是图片的直接链接

2、那么知道这个链接，我们怎么写进本地呢？

先看代码：

需要如下环境 :
from PIL import Image
from io import BytesIO
import requests

# -*- coding: utf-8 -*-
"""
@File  : 写入图片.py
@author: FxDr
@Time  : 2022/10/30 21:05


"""

from PIL import Image
from io import BytesIO
import requests


def save_image(filename, src):
    req = requests.get(src).content
    a = Image.open(BytesIO(req))
    a.save('{}.jpg'.format(filename))


if __name__ == '__main__':
    url = input("输入网页图片直接地址") # 'https://i03piccdn.sogoucdn.com/f31f0fd78642e386'
    name = input("请输入您要保存图片的名字:")
    save_image(name, url)

我们以这个猫为例，先获取链接，执行上面代码

在当前文件目录下可以看到：cat.jpg

二、不知道直接链接怎么办？

1、通过爬虫能获取直接链接吗？

# -*- coding: utf-8 -*-
"""
@File  : 00.py
@author: FxDr
@Time  : 2022/10/30 22:38
"""
import requests

url = 'https://image.xxxxxxx'
r = requests.get(url, 'html.parser').text
print(r)

输出如下：

我们在搜索从审查中找到的链接，找不到，说明是用ajax异步来传送的数据

我们可以再找到链接的时候先复制链接，然后点击查看页面源代码查找一下里面有没有这个地址

可以看到，找不到

2、怎么找到直接链接？

按ctrl+r刷新一下，并把页面往下拉

可以知道：

直接链接在这：

所以我们复制这个作为url

3、代码获取链接解析

# -*- coding: utf-8 -*-
"""
@File  : 爬取图片.py
@author: FxDr
@Time  : 2022/10/30 19:29
"""
# url:  https://imagexxxxxx

import requests
import json
from bs4 import BeautifulSoup

url = 'https://image.baidu.com/search/albumsdata?pn=30&rn=30&tn=albumsdetail&word=%E4%BA%BA%E7%89%A9&album_tab=%E7%BB%98%E7%94%BB&album_id=523&ic=0&curPageNum=1'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit.......',
    'Host': '.........',
    'Accept': '.......'
}

req = requests.get(url, headers=headers).content
soup = BeautifulSoup(req, 'html.parser')
img_json = json.loads(soup.text) # 加载为json文件
# print(img_json)
img_urls = img_json['albumdata']['linkData']
# print(img_url)
for img_url in img_urls:
    print(img_url['thumbnailUrl'])

如下：获取到了链接，

再然后就是用第一点讲的写入就行

（这里我用了另一种方法，即with open(filename,'wb') as f:

三、爬取图片代码如下：

参考了这位大佬：Python爬取图片_Mr.Haley的博客-优快云博客_python爬取图片

# -*- coding: utf-8 -*-
"""
@File  : 爬取图片.py
@author: FxDr
@Time  : 2022/10/30 19:29
"""
# 图片url  https://imagexxxxxx


import requests
import json
from bs4 import BeautifulSoup


class DownIma:
    def __init__(self):
        self.url = 'https://image.baidu.com/search/albumsdata?pn=30&rn=30&tn=albumsdetail&word=%E4%BA%BA%E7%89%A9&album_tab=%E7%BB%98%E7%94%BB&album_id=523&ic=0&curPageNum=1'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit......',
            'Accept': '......'
        }

    def GetUrls(self):
        req = requests.get(self.url, headers=self.headers).text
        img_json = json.loads(req)
        # print(img_json)
        img_urls = img_json['albumdata']['linkData']
        # print(img_url)
        urls = []

        for img_url in img_urls:
            print(img_url['thumbnailUrl'])
            urls.append(img_url['thumbnailUrl'])
        return urls

        # for each in urls:
        #  print(each)

    def DownLoad(self, u):
        i = 1
        for each in u:
            filename = r"H:/Project/PPython/Python1/AAA/img/pa/img0{}.jpg".format(i)
            # urls.append(img_url['thumbnailUrl'])
            req = requests.get(each, headers=self.headers).content
            with open(filename, "wb") as f:
                f.write(req)
                print(filename)
                i += 1


if __name__ == "__main__":
    a = DownIma()
    a.DownLoad(a.GetUrls())