爬取百度图片Python脚本

使用Python爬取百度图片：黑烟检测数据集获取

最新推荐文章于 2024-04-24 13:40:11 发布

原创最新推荐文章于 2024-04-24 13:40:11 发布 · 872 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#正则表达式 #百度 #python

爬虫专栏收录该内容

2 篇文章

订阅专栏

该博客分享了一段Python代码，用于从百度图片中爬取以‘黑烟’为关键词的图片，以构建黑烟检测的数据集。作者提醒，由于可能存在重复或不相关图片，后期需要手动筛选。代码中包含图片下载逻辑，并提示运行时需自行停止。

部署运行你感兴趣的模型镜像

最近项目要求对黑烟进行检测，在网上找其他博主要了一些数据集，自己也发现了一个可以爬取百度图片的脚本，在此分享给大家！！！不多说，下面直接上代码。

# -*- coding:utf-8 -*-
# @Time : 2020/12/24 16:28
# @Author: JulyLi
# @File : spider.py

import requests
import re

num = 0
numPicture = 0
file = ''
List = []


def dowmloadPicture(html, keyword):
    global num
    # t =0
    pic_url = re.findall('"objURL":"(.*?)",', html, re.S)  # 先利用正则表达式找到图片url

    print('找到关键词:' + keyword + '的图片，即将开始下载图片...')
    for each in pic_url:
        print('正在下载第' + str(num + 1) + '张图片，图片地址:' + str(each))
        try:
            if each is not None:
                pic = requests.get(each, timeout=7)
            else:
                continue
        except BaseException:
            print('错误，当前图片无法下载')
            continue
        else:
            string = './output/' + keyword + '_' + str(num) + '.jpg'
            fp = open(string, 'wb')
            fp.write(pic.content)
            fp.close()
            num += 1
        # if num >= numPicture:
        #     return


if __name__ == '__main__':  # 主函数入口
    header = {'content-type': 'application/json',
              'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'}
    word = input("请输入搜索关键词(可以是人名，地名等): ")

    num1 = 0
    while 1:
        url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&pn='
        r = requests.get(url + str(num1), headers=header, allow_redirects=False)
        r.encoding = 'utf-8'
        dowmloadPicture(r.text, word)
        num1 = num1 + 20