爬取www.amazon.com网站下所有商品分类url总结(附文件合并程序)

该博客主要介绍了如何爬取www.amazon.com网站的商品分类URL,包括使用handle.py解析网页提取URL,urlsh.sh获取源代码,get_url.py整合功能。此外,还提供了文件除重和合并的命令行操作方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文件分类:

handle.py  

get_url.py

urlsh.sh

seed_url.good

amazon.good

handle.py文件功能为解析网页源代码提取url

#!/usr/bin/python
import sys,re
#handle.py

patt=re.compile('href="\/s\?ie=UTF8&page=1&rh=n%3A([0-9]*?)">')
url=[]


f=open(sys.argv[1])
f_w=open("amazon.good",'a')
while True:
        line=f.readline()
        if not line:break
        url.append(re.findall(patt,line))
for ur in url:
        for u in ur:
                f_w.write('"http://www.amazon.com/b?ie=UTF8&node='+u+'"\n')
                #f_w.write(u+'\n')
f.close()
f_w.close()
amazon.good存放获取的url

urlsh.sh功能为获取网址源代码


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值