【python小练习】百度图片小爬虫

第一篇博客翻译了一个21行的单词纠错器,这次就给大家贡献一个21行的百度图片爬虫。(我仿佛很喜欢21这个数字嘛。。。)因为博主最近在做一个pix2pix的项目,需要很多图片作为原始训练集,因此想到了自己爬一个数据集。
因为博主本人的编程渣功底,所以这次的代码也相当于是一个玩具代码,试试通过识别url,正则匹配的一些简单的操作,实现爬取所需网络图片并且保存下来的功能,具体的一些爬虫的更高深的知识如果大家有兴趣,可以学习Beautiful soup和scrapy两个包的使用。编写更加无敌的爬虫。

老惯例,先把代码粘上,如果是想拿去用的同学,看到这一步就可以带着代码走了!~用的是python2.7~没啥依赖包 re和requests貌似都是自带的?

#-*- coding:utf-8 -*-
import re
import requests
n=10
for i in range(n):
    tem=str(i*60)
    url='https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%B0%8F%E9%BB%84%E4%BA%BA&pn='+tem+'&gsm=0'
    html=requests.get(url).text
    pic_url=re.findall('"objURL":"(.*?)",',html,re.S)
    n=i*60
    for each in pic_url:
        print each
        try:
            pic=requests.get(each,timeout=80)
        except requests.exceptions.Connection
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值