提示:本文章通过Python来对某网站上发布的论文信息进行可视化,主要分为通过爬虫解析网页,获取数据,以及数据预处理,数据的可视化及分析等。
文章目录
前言
1.题目
(1)对网址http://openaccess.thecvf.com/ICCV2019.py 中所列文献信息进行分析;
(2)对文本进行预处理,包括分词、词频统计等;
(3)对研究热点词汇、高产作者、论文数量、论文标题长度等信息进行统计分析;
(4)对上述分析结果进行可视化展示和说明。
2.内容
使用折线图、饼图、词云、直方图及散点图等对相关信息进行可视化。
一、题目描述
对 ICCV2019 文章列表进行分析,挖掘数据内在信息,并用可视化技术展示,网址:http://openaccess.thecvf.com/ICCV2019.py,要求如下:
- 预处理:统计词频(可以徒手完成,亦可以借助工具);
- 结合可视化技术的分析
a. 研究热点词汇(有标题中出现最多的词汇体