
爬虫毕业设计
使用scrapy、scrapy-redis、redis、mysql、pyecharts等完成该项目,主要包括:数据获取,数据存储,数据成图等内容
不作声
微信公众号关注: 前端大合集。谢谢支持
展开
-
爬虫毕设(六):数据可视化
pyecharts数据可视化pyecharts是一个用于生成Echarts图表的类库。Echarts是百度开源的一个数据可视化JS库,主要用于数据可视化。实际是Echarts与Python的对接,使用pyecharts可以生成独立的网页。pyechart可以做很多图表,毕业设计使用了三种简单的图表:折线图、饼状图、词云图。pyecharts可以使用pip install pyecharts直接下载。pyecharts官方文档地址:http://pyecharts.org/#/zh-cn/quicks原创 2020-05-29 23:13:33 · 4978 阅读 · 1 评论 -
毕业设计(五):数据库相关
数据库存储数据库可以结构化存储大量数据,同时还可以有效的保证数据的完整性、一致性,降低数据冗余。而且数据库还可以满足应用的共享和安全方面的要求,方便智能化地分析数据,产生新的有用的信息。将数据存储到mysql数据库中需要下载pymysql库,然后再pipelines文件中进行数据处理。声明一个pipeline类,在__init__()中初始化mysql数据库连接参数。 self.conn...原创 2020-04-27 22:08:31 · 1620 阅读 · 2 评论 -
爬虫毕设(四):多页爬取和数据持久化
多页爬取上次说到电视剧的列表信息是通过Ajax网络请求获取到数据的,当我们打开页面的时候,页面再向另一地址发出请求,得到数据后再渲染到网页上,我们是在network中找到的目标url。所以说,当我们想要爬取第二页,第三页以后的内容所要请求的url都可以在network中找到。我们请求的目标url是https://movie.douban.com/j/search_subjects?type=t...原创 2020-04-07 11:11:12 · 819 阅读 · 0 评论 -
爬虫毕设(三):爬取动态网页
动态网页分析按照上一篇的分析,直接使用XPath找到该标签,然后通过parse提取出数据,在写入到item中就完事了。但是,当信心满满的写完代码后却发现,控制台输入了一个简简单单的[]。小问号你是否有很多朋友。一顿操作猛如虎,一看输出数据无。那么这到底是怎么回事呢?我们从头开始分析。打开NetWork,找到tv/,点开Preview,结果发现只有一个框架,内容却是空白的。这是由于网页...原创 2020-04-01 23:58:12 · 768 阅读 · 2 评论 -
爬虫毕设(二):创建第一个爬虫
创建项目使用scrapy startproject Spider创建一个名为Spider的项目。使用vscode打开项目,可以看见该项目的文件结构:再一次介绍各文件的作用:scrapy.cfg:项目部署文件spiders:存放爬虫文件的文件夹items.py:保存爬取到的数据的容器middlewares.py:中间件pipelines.py:将爬取的数据进行持久化存储sett...原创 2020-03-30 23:18:39 · 505 阅读 · 0 评论 -
爬虫毕设(一):爬虫框架
Scrapy安装安装Scrapy有两种途径:使用pip安装:pip install Scrapy使用国内豆瓣安装:pip install -i https://pypi.douban.com/simple/ scrapy推荐使用第二种方式,安装速度很快。Scrapy命令在命令行中输入scrapy,会直接显示常用的命令:1、scrapy startproject Demo(项目名...原创 2020-03-13 00:21:27 · 2608 阅读 · 6 评论