数据搜索、挖掘、可视化与简单数据 API 创建
1. 数据爬取与图可视化
在数据处理中,我们常常需要对网页数据进行爬取和分析。以下是一个简单的爬虫示例,从定义单级深度爬取开始:
crawl_depth = 1
process = CrawlerProcess({
'LOG_LEVEL': 'ERROR',
'DEPTH_LIMIT': crawl_depth
})
process.crawl(WikipediaSpider)
spider = next(iter(process.crawlers)).spider
spider.max_items_per_page = 5
spider.max_crawl_depth = crawl_depth
process.start()
for pm in spider.linked_pages:
print(pm.depth, pm.link, pm.child_link)
print("-"*80)
上述代码实现了单级深度的网页爬取,并打印出爬取到的页面信息。接下来,我们需要将这些信息转换为 NetworkX 可以使用的图模型:
g = nx.Graph()
nodes = {}
edges = {}
for pm in spider.linked_pages:
if pm.title not in nodes:
nodes[pm.title] = pm
g.add_node(pm.title)
if pm
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



