17、数据搜索、挖掘、可视化与简单数据 API 创建

elastic6hunter

于 2025-07-24 11:51:53 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏： Python网络爬虫实战指南文章标签：数据爬取 NetworkX 图可视化

本文链接：https://blog.youkuaiyun.com/elastic6hunter/article/details/149762371

Python网络爬虫实战指南专栏收录该内容

23 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据搜索、挖掘、可视化与简单数据 API 创建

1. 数据爬取与图可视化

1.1 单深度爬取

首先，我们进行单深度的爬取操作。以下是具体的代码实现：

crawl_depth = 1
process = CrawlerProcess({
    'LOG_LEVEL': 'ERROR',
    'DEPTH_LIMIT': crawl_depth
})
process.crawl(WikipediaSpider)
spider = next(iter(process.crawlers)).spider
spider.max_items_per_page = 5
spider.max_crawl_depth = crawl_depth
process.start()
for pm in spider.linked_pages:
    print(pm.depth, pm.link, pm.child_link)
print("-"*80)

这个过程的步骤如下：
1. 定义爬取深度为 1。
2. 创建一个 CrawlerProcess 对象，并设置日志级别为 ERROR ，深度限制为定义的爬取深度。
3. 启动爬取过程，爬取的数据存储在 spider.linked_pages 中。
4. 遍历 spider.linked_pages 并打印相关信息。