首先我选取的爬取数据是所有季度参演过的嘉宾
然后检查网页代码,找到要爬取的数据那部分,这里需要爬取的是table标签
我用的是jupyter notebook写的代码,设置url与Headers,先写一个爬取下来数据保存到json文件的方法

这里可能会遇到一些问题,列表里单引号和双引号要搞清楚
运行结果:
接下来是一个自动爬取明星图片的方法(通过读取json文件中保存的’link’数据,即明星的百度百科链接,来进行图片的自动下载保存)

运行结果:

接着根据爬取的数据做了几个图表:
**
## 运行结果:
**


比较好奇哪个明星出场次数最多,就又写了个,可惜后来才发现table里本来就爬下来了。。林更新5次

数据可视化:

运行结果:
代码可能截图不全,参考为主,哪里不全可以找我发
本文讲述了作者使用Python爬虫技术抓取明星季度参演数据,解析table标签,分析林更新出场次数最多,并通过可视化展示了明星活跃度。涉及数据抓取、json存储和图表制作过程。

被折叠的 条评论
为什么被折叠?



