17、数据搜索、挖掘、可视化与简单数据 API 创建

数据搜索、挖掘、可视化与简单数据 API 创建

1. 数据爬取与图可视化

1.1 单深度爬取

首先,我们进行单深度的爬取操作。以下是具体的代码实现:

crawl_depth = 1
process = CrawlerProcess({
    'LOG_LEVEL': 'ERROR',
    'DEPTH_LIMIT': crawl_depth
})
process.crawl(WikipediaSpider)
spider = next(iter(process.crawlers)).spider
spider.max_items_per_page = 5
spider.max_crawl_depth = crawl_depth
process.start()
for pm in spider.linked_pages:
    print(pm.depth, pm.link, pm.child_link)
print("-"*80)

这个过程的步骤如下:
1. 定义爬取深度为 1。
2. 创建一个 CrawlerProcess 对象,并设置日志级别为 ERROR ,深度限制为定义的爬取深度。
3. 启动爬取过程,爬取的数据存储在 spider.linked_pages 中。
4. 遍历 spider.linked_pages 并打印相关信息。

1.2 转换为 NetworkX 图模型

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值