【python小练习】百度图片小爬虫

最新推荐文章于 2025-06-23 20:57:22 发布

irfan_Icmll

最新推荐文章于 2025-06-23 20:57:22 发布

阅读量4.1k

点赞数 6

CC 4.0 BY-SA版权

分类专栏： pix2pix 文章标签：爬虫 python 图片

本文链接：https://blog.youkuaiyun.com/qq_27879381/article/details/65015280

第一篇博客翻译了一个21行的单词纠错器，这次就给大家贡献一个21行的百度图片爬虫。（我仿佛很喜欢21这个数字嘛。。。）因为博主最近在做一个pix2pix的项目，需要很多图片作为原始训练集，因此想到了自己爬一个数据集。
因为博主本人的编程渣功底，所以这次的代码也相当于是一个玩具代码，试试通过识别url，正则匹配的一些简单的操作，实现爬取所需网络图片并且保存下来的功能，具体的一些爬虫的更高深的知识如果大家有兴趣，可以学习Beautiful soup和scrapy两个包的使用。编写更加无敌的爬虫。

老惯例，先把代码粘上，如果是想拿去用的同学，看到这一步就可以带着代码走了！~用的是python2.7~没啥依赖包 re和requests貌似都是自带的？

#-*- coding:utf-8 -*-
import re
import requests
n=10
for i in range(n):
    tem=str(i*60)
    url='https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%B0%8F%E9%BB%84%E4%BA%BA&pn='+tem+'&gsm=0'
    html=requests.get(url).text
    pic_url=re.findall('"objURL":"(.*?)",',html,re.S)
    n=i*60
    for each in pic_url:
        print each
        try:
            pic=requests.get(each,timeout=80)
        except r