python编程篇之爬虫(三)
"""
爬取淘宝相应对的关键字的网页的图片
"""
import re
import urllib.request
keywd = "手机"
# 对关键字进行编码
key = urllib.request.quote(keywd)
# 构建url
simple_url = "https://s.taobao.com/search?q="+key+"&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s="
# 模拟成浏览器访问进行爬虫
header = (
"User-Agent",
"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"
)
opener = urllib.request.build_opener()
opener.addheaders = [header]
urllib.request.install_opener(opener)
for i in range(0,11):
# 观察url的规律可以得出,第一页与第二页之间相差44,所以在这里url的最后用(页数*44)
url = simple_url+str(i*44)
data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
pat = '"pic_url":"//(.*?)"'
imageList = re.compile(pat).findall(data)
# print(imageList)
for j in range(len(imageList)):
# imageUrl = "http://"+imageList[j]+".jpg"
imageUrl = "http://"+imageList[j]
file = "E:/testFile/taobao/"+str(i)+"_"+str(j)+".jpg"
urllib.request.urlretrieve(imageUrl,filename=file)
运行结果:
也可以把手机这个关键字改为想要爬的关键字,试试是否可以运行。
注意存储的地方需要修改为自己要保存的地方。