Python正则表达式练习

本文介绍了一种使用Python爬取慕课网上课程图片的方法。通过urllib2请求网页内容,并利用正则表达式匹配图片URL,最后将图片保存到本地。此教程适用于初学者了解基本的网页爬虫实现。

爬取慕课课程图片https://www.imooc.com/course/list

图片url

 

In [13]: import urllib2

In [14]: req = urllib2.urlopen('https://www.imooc.com/course/list')

In [17]: listurl = re.findall(r'src=.+//(.+\.jpg)',buf)

In [18]: listurl
Out[18]: 
['img1.mukewang.com/529dc3380001379906000338-240-135.jpg',
 'img2.mukewang.com/57035ff200014b8a06000338-240-135.jpg',
 'img.mukewang.com/574669dc0001993606000338-240-135.jpg',
 'img2.mukewang.com/53e1d0470001ad1e06000338-240-135.jpg',
 'img3.mukewang.com/53a28e960001311b06000338-240-135.jpg',
 'img3.mukewang.com/540e57300001d6d906000338-240-135.jpg',
 'img4.mukewang.com/5b5b00d10001d05205400300-240-135.jpg',
 'img1.mukewang.com/5b56e2ab000194d806000338-240-135.jpg',
 'img1.mukewang.com/5b55b3f400017b9906000338-240-135.jpg',
 'img.mukewang.com/5b4ed6590001d9ee06000338-240-135.jpg',
 'img2.mukewang.com/5b4705c90001fc9506000338-240-135.jpg',
 'img1.mukewang.com/5b470bfe0001cdbf06000338-240-135.jpg',
 'img.mukewang.com/5b4863e40001a8c506000338-240-135.jpg',
 'img4.mukewang.com/5b33637d00016cbe05400300-240-135.jpg',
 'img3.mukewang.com/5b3dec540001278406000338-240-135.jpg',
 'img3.mukewang.com/5b20d7dd000124da06000338-240-135.jpg',
 'img3.mukewang.com/5b14f0d3000189d206000338-240-135.jpg',
 'img4.mukewang.com/5b39ca9100014d8605400300-240-135.jpg',
 'img3.mukewang.com/5b5188020001677306000338-240-135.jpg',
 'img2.mukewang.com/5b1e49640001904606000338-240-135.jpg',
 'img1.mukewang.com/5b3061210001550306000338-240-135.jpg',
 'img3.mukewang.com/5b289bbe0001fc4906000338-240-135.jpg',
 'img2.mukewang.com/5b14e8310001197706000338-240-135.jpg',
 'img1.mukewang.com/5b28da010001930906000338-240-135.jpg',
 'img4.mukewang.com/5b2218750001370806000338-240-135.jpg',
 'img4.mukewang.com/5b1f61150001a20905400300-240-135.jpg',
 'img.mukewang.com/5b1e0cfc0001ef7b06000338-240-135.jpg',
 'img3.mukewang.com/5b1dd1fa0001b70d06000338-240-135.jpg',
 'img1.mukewang.com/5b14d44b00014f9606000338-240-135.jpg',
 'img4.mukewang.com/5b14b0480001672706000338-240-135.jpg']


In [28]: for url in listurl:
                f = open(str(i)+'.jpg','w')
                req = urllib2.urlopen('http://'+url)
                buf = req.read()
                f.write(buf)
                i+=1

                

转载于:https://www.cnblogs.com/zaorunzi/p/9390186.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值