目录
摘要
1 引言 4
1.1 背景 4
1.2 意义 4
1.3 实现的功能 4
1.3.1 爬虫程序 4
1.3.2 可视化界面 4
2 系统结构 5
2.1 系统整体结构 5
2.2 使用的技术 5
2.2.1 Python 5
2.2.2 BeautifulSoup 5
2.2.3 正则表达式 5
2.2.4 SQLite 5
2.2.5 Flask框架 6
2.2.6 ECharts 6
2.3 相关的模块 6
2.3.1 爬虫模块 6
2.3.2 可视化模块 7
3 实现代码 7
3.1 爬虫模块 7
3.2 可视化模块 12
4 实验 16
5 总结和展望 17
1 引言
1.1 背景
在当今时代,随着各个国家为科研事业不断地投入精力与资源,很多科学技术不断的发展、突破以及日益完善。加之现代5G网络的发展,wifi6的应用,ipv6的普及,移动数据呈现爆炸式增长,互联网已经成为一个庞大的信息载体,这些对于人类的生活发展都有重大意义。
由此,为了满足需求,而有了网络检索功能。特别是搜索引擎的发展,人们的需求也在不断提高。现在有了python网络爬虫,极大的满足了人们的需求。本次就用python,开发一个爬取豆瓣Top250的资源,并可视化。
1.2 意义
互联网的发展促进了这个社会的发展,提高了人们的生活水平。网络爬虫的出现更是给人们带来了极大的方便。
开发这个程序,是为了加深学习python,学习爬取数据,处理数据,并将其可视化。也可提供给人们参考。
1.3 实现的功能
此作品分为两部分:
1.3.1 爬虫程序
通过爬虫技术在豆瓣网爬取Top250的电影信息。
1.3.2 可视化界面
界面显示250部今典电影,电影评分统计,上映时间分布和地区分布。
2 系统结构
2.1 系统整体结构
根据所需,此作品分为两部分,一部分为爬虫程序,另一部分为可视化。顶层业务流程图如下图所示: