python爬虫爬取网页指定数据（百度百科）

原创于 2021-11-22 00:47:36 发布 · 2.9k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫

笔记专栏收录该内容

2 篇文章

订阅专栏

本文讲述了作者使用Python爬虫技术抓取明星季度参演数据，解析table标签，分析林更新出场次数最多，并通过可视化展示了明星活跃度。涉及数据抓取、json存储和图表制作过程。

首先我选取的爬取数据是所有季度参演过的嘉宾 在这里插入图片描述 然后检查网页代码，找到要爬取的数据那部分，这里需要爬取的是table标签

我用的是jupyter notebook写的代码，设置url与Headers，先写一个爬取下来数据保存到json文件的方法

在这里插入图片描述
这里可能会遇到一些问题，列表里单引号和双引号要搞清楚
运行结果：

接下来是一个自动爬取明星图片的方法（通过读取json文件中保存的’link’数据，即明星的百度百科链接，来进行图片的自动下载保存）

在这里插入图片描述
运行结果：

接着根据爬取的数据做了几个图表：

在这里插入图片描述 **

## 运行结果：

**
在这里插入图片描述

在这里插入图片描述

比较好奇哪个明星出场次数最多，就又写了个，可惜后来才发现table里本来就爬下来了。。林更新5次
在这里插入图片描述

数据可视化：

在这里插入图片描述
运行结果：
代码可能截图不全，参考为主，哪里不全可以找我发

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。