网页抓取的行为准则与技术实现
1. 遵循 robots.txt 规则
在网页抓取过程中,遵守网站的 robots.txt 规则是非常重要的。Python 中有一些库可以帮助我们实现这一规则,这里我们使用 reppy 库。
1.1 安装 reppy 库
可以使用以下命令安装 reppy 库:
pip install reppy
如果在 Mac 上安装时出现错误,可能需要使用以下命令:
CFLAGS=-stdlib=libc++ pip install reppy
1.2 示例代码及运行结果
运行 05/01_sitemap.py 脚本,该脚本会检查 amazon.com 上几个 URL 是否允许被抓取。示例代码如下:
from reppy.robots import Robots
url = "http://www.amazon.com"
robots = Robots.fetch(url + "/robots.txt")
paths = [
'/',
'/gp/dmusic/',
'/gp/dmusic/promotions/PrimeMusic/',
'/gp/r
超级会员免费看
订阅专栏 解锁全文
956

被折叠的 条评论
为什么被折叠?



