python编程篇之爬虫(三)

此博客为Python编程篇之爬虫第三篇,提到可将手机关键字替换为想爬取的关键字来测试运行,同时提醒要把存储位置修改为自己想保存的地方。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python编程篇之爬虫(三)

"""
爬取淘宝相应对的关键字的网页的图片
"""
import re
import urllib.request

keywd = "手机"
# 对关键字进行编码
key = urllib.request.quote(keywd)
# 构建url
simple_url = "https://s.taobao.com/search?q="+key+"&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s="

# 模拟成浏览器访问进行爬虫
header = (
    "User-Agent",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"
)
opener = urllib.request.build_opener()
opener.addheaders = [header]
urllib.request.install_opener(opener)

for i in range(0,11):
    # 观察url的规律可以得出,第一页与第二页之间相差44,所以在这里url的最后用(页数*44)
    url = simple_url+str(i*44)
    data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
    pat = '"pic_url":"//(.*?)"'
    imageList = re.compile(pat).findall(data)
    # print(imageList)
    for j in range(len(imageList)):
        # imageUrl = "http://"+imageList[j]+".jpg"
        imageUrl = "http://"+imageList[j]
        file = "E:/testFile/taobao/"+str(i)+"_"+str(j)+".jpg"
        urllib.request.urlretrieve(imageUrl,filename=file)

运行结果:

爬取到的手机图片

也可以把手机这个关键字改为想要爬的关键字,试试是否可以运行。
注意存储的地方需要修改为自己要保存的地方。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值