python与matlab爬虫百度图片首页的图片(urllib.request)

python的爬虫实践

python版本:python 3.6.0,实践内容:爬去百度图片首页的所有图片保存在本地,并批量读取图片并排列组合成一张大图。内容涉及:正则表达式,反盗链等操作。需要说明的使用伪装的headers,否则可能会出现404 forbidden.下载图片使用的是urllib.request.urlretrieve函数,也可以使用save函数直接保存在本地。

import urllib.request
import re
url = "http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%DA%D6%BD&fr=ala&ala=1&pos=0&alatpl=wallpaper&oriquery=%E5%A3%81%E7%BA%B8"
headers={   
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER'  
        } 
req = urllib.request.Request(url=url, headers=headers)#伪装浏览器  
page = urllib.request.urlopen(req)
html = page.read()
imgre = re.compile(r'"objURL":"http://img2.niutuku.com(.*?)\.jpg",')#网页源代码,正则表达式
html=html.decode('utf-8','ignore')#python3
imglist = re.findall(imgre,html)
print (imglist)
x=0
for imgurl in imglist: 
              urllib.request.urlretrieve('http://img2.niutuku.com'+imgurl+'.jpg','E:\\'+'%s.jpg' % x)
      x= x+1

将爬取的图片保存在一张图上。

import matplotlib.pyplot as plt
from scipy import misc
for i in range(1,11):
   str = "%s%d%s"% ("E:\\",i-1,".jpg")
   image = mpimg.imread(str)#图片读取
   image_new_size = misc.imresize(image,[260,280])#统一尺寸
   plt.subplot(2,5,i)
   plt.imshow(image_new_size,origin = 'lower')
   plt.axis('off')
plt.show()
plt.savefig('E:\\out.jpg')

这里写图片描述
这里写图片描述

matlab爬虫实践

fullURL = ['http://www.mathworks.com/matlabcentral/fileexchange' ...
       '?term=urlread'];
str = urlread(fullURL,'Timeout',5);
fullURL = ['http://www.mathworks.com/matlabcentral/fileexchange' ...
       '?term=urlwrite'];
filename = 'samples.html';
urlwrite(fullURL,filename,'Timeout',5);

matlab的上述代码可以爬取网页源代码,接下来只需要对字符数据进行操作,即可得到图片数据地址,进行下载即可。

主要参考文献:
http://blog.youkuaiyun.com/baidu_31956557/article/details/75579344
http://hongtoushizi.iteye.com/blog/2268825
http://blog.youkuaiyun.com/denny2015/article/details/50532968
http://www.cnblogs.com/yinxiangnan-charles/p/5928689.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值