使用python获取指定网址的源代码,解析其中的图片路径;然后循环保存到本地磁盘。
技术点:
1、正则表达式匹配获取图片路径
2、python for 循环的使用
3、python文件保存的使用
'''
抓取网络数据
'''
import re,requests
#创建网络请求
response=requests.get('http://www.youkuaiyun.com')
#设定网络请求返回内容的字符集类型
response.encoding='utf8'
#网页源码
text=response.text
#解析网络图片路径
def geturl(url):
a=re.findall(r'http.*.png',url,re.S)
if len(a)==1:
return a[0]
#从图片路径中获取图片名称
def getname(url):
a=re.findall(r'\w*.png',url,re.S)
if len(a) ==1:
return a[0]
#下载图片
def savefile(name,url):
with open('D:\\2\%s' % name, 'wb') as f:
f.write(requests.get(url).content)
urls=re.findall(r'src="http.*?"',text,re.S)
for u in urls:
url=geturl(u)
if url != None:
name=getname(url)
savefile(name,url)