17、数据搜索、挖掘、可视化与简单数据 API 创建

perl8

于 2025-11-04 14:13:53 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏： Python爬虫实战精讲文章标签：数据爬取图可视化 NetworkX

本文链接：https://blog.youkuaiyun.com/perl8/article/details/154632572

Python爬虫实战精讲专栏收录该内容

23 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据搜索、挖掘、可视化与简单数据 API 创建

1. 数据爬取与图可视化

在数据处理中，我们常常需要对网页数据进行爬取和分析。以下是一个简单的爬虫示例，从定义单级深度爬取开始：

crawl_depth = 1
process = CrawlerProcess({
    'LOG_LEVEL': 'ERROR',
    'DEPTH_LIMIT': crawl_depth
})
process.crawl(WikipediaSpider)
spider = next(iter(process.crawlers)).spider
spider.max_items_per_page = 5
spider.max_crawl_depth = crawl_depth
process.start()
for pm in spider.linked_pages:
    print(pm.depth, pm.link, pm.child_link)
print("-"*80)

上述代码实现了单级深度的网页爬取，并打印出爬取到的页面信息。接下来，我们需要将这些信息转换为 NetworkX 可以使用的图模型：

g = nx.Graph()
nodes = {}
edges = {}
for pm in spider.linked_pages:
    if pm.title not in nodes:
        nodes[pm.title] = pm
        g.add_node(pm.title)
    if pm