数据搜索、挖掘、可视化与简单数据 API 创建
1. 数据爬取与图可视化
1.1 单深度爬取
首先,我们进行单深度的爬取操作。以下是具体的代码实现:
crawl_depth = 1
process = CrawlerProcess({
'LOG_LEVEL': 'ERROR',
'DEPTH_LIMIT': crawl_depth
})
process.crawl(WikipediaSpider)
spider = next(iter(process.crawlers)).spider
spider.max_items_per_page = 5
spider.max_crawl_depth = crawl_depth
process.start()
for pm in spider.linked_pages:
print(pm.depth, pm.link, pm.child_link)
print("-"*80)
这个过程的步骤如下:
1. 定义爬取深度为 1。
2. 创建一个 CrawlerProcess 对象,并设置日志级别为 ERROR ,深度限制为定义的爬取深度。
3. 启动爬取过程,爬取的数据存储在 spider.linked_pages 中。
4. 遍历 spider.linked_pages 并打印相关信息。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



