第一篇博客翻译了一个21行的单词纠错器,这次就给大家贡献一个21行的百度图片爬虫。(我仿佛很喜欢21这个数字嘛。。。)因为博主最近在做一个pix2pix的项目,需要很多图片作为原始训练集,因此想到了自己爬一个数据集。
因为博主本人的编程渣功底,所以这次的代码也相当于是一个玩具代码,试试通过识别url,正则匹配的一些简单的操作,实现爬取所需网络图片并且保存下来的功能,具体的一些爬虫的更高深的知识如果大家有兴趣,可以学习Beautiful soup和scrapy两个包的使用。编写更加无敌的爬虫。
老惯例,先把代码粘上,如果是想拿去用的同学,看到这一步就可以带着代码走了!~用的是python2.7~没啥依赖包 re和requests貌似都是自带的?
#-*- coding:utf-8 -*-
import re
import requests
n=10
for i in range(n):
tem=str(i*60)
url='https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%B0%8F%E9%BB%84%E4%BA%BA&pn='+tem+'&gsm=0'
html=requests.get(url).text
pic_url=re.findall('"objURL":"(.*?)",',html,re.S)
n=i*60
for each in pic_url:
print each
try:
pic=requests.get(each,timeout=80)
except requests.exceptions.Connection