网页数据抓取挑战与解决方案
在网页数据抓取过程中,我们会遇到各种挑战,比如处理分页内容、控制抓取深度和长度、应对表单授权等。下面将详细介绍相关的问题及解决方案。
持续抓取分页内容
在抓取分页内容时,我们可以通过不断生成请求来获取所有页面的数据。以 http://spidyquotes.herokuapp.com/api/quotes 为例,我们可以通过增加 page 参数的值,直到响应文档中不再包含 has_next 标签为止。
具体操作步骤如下:
1. 运行 06/05_scrapy_continuous.py 文件,该文件包含一个Scrapy代理,用于抓取页面数据。
2. 运行代码后,会输出类似以下的内容:
<200 http://spidyquotes.herokuapp.com/api/quotes?page=2>
2017-10-29 16:17:37 [scrapy.core.scraper] DEBUG: Scraped from <200 http://spidyquotes.herokuapp.com/api/quotes?page=2>
{'text': "“This life is what you make it. ...”, 'author': 'Marilyn Monroe', 'tags': ['friends', 'heartbreak', 'inspirational', 'life', 'love', 'sisters']}
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



