爬虫+舆情分析项目记录
制作一个从网上爬取数据,对数据主题进行分析与可视化的windows桌面应用。
VerdureChen
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用pyinstaller对scrapy+selenium+pyqt5项目进行打包常见问题总结以及主要过程记录
前一段时间构建了一个使用scrapy+selenium+pyqt5的爬虫可视化界面,用于爬取知乎、百度百家号以及新浪新闻,在界面调试无误后,就需要使用pyinstaller进行打包,将项目变成更容易移植的exe文件。这篇博文主要用于记录打包的主要过程以及问题的解决方法。1. pyinstaller的安装一般来说,使用常用的pip命令即可安装,但我在安装时遇到了如下问题:Installing build dependencies ... errorERROR: Command errored原创 2020-08-12 23:34:09 · 2707 阅读 · 0 评论 -
python scrapy+mongodb爬取百度百家号与新浪新闻
此前我爬取了zhihu的相关问答,为了更好地收集信息,原本的打算是爬取百度资讯的内容,但在对页面进行分析后发现,在百度资讯的搜索结果中,百家号的页面格式比较统一,便于爬取;而其他媒体网站的页面格式比较繁杂,并且在百度特定关键词搜索结果中,像腾讯新闻、新浪新闻等比较具有可信度,并且格式较为统一的页面,数量其实非常少,所以从百度资讯的媒体网站爬取数据是不太现实的。此时我发现,新浪具有新闻的检索功能,来源较为广泛,并且新浪作为转载网站,为页面提供了较为统一清晰的格式。所以最终我决定爬取百度百家号+新浪新闻信息。原创 2020-07-29 16:21:02 · 2678 阅读 · 1 评论 -
在scrapy通过配置文件进行自定义参数的爬虫并行
在同个项目下写了多个爬虫之后,如果我们需要同时并行运行多个爬虫,需要怎么做呢?关于这个,我找到了两篇可以解决问题的博文,主要思路是在爬虫目录下新建commands目录,重新定义Command函数,通过这个思路,我们可以做到的是重新定义启动爬虫时的命令行参数,收集我们需要传入内部的参数,并且再通过Command函数解析,并传递给每个运行的爬虫。其中一篇博文解释的思路比较清晰,耐心读就可以读懂:https://blog.youkuaiyun.com/qq_38282706/article/details/80991原创 2020-07-29 11:08:28 · 778 阅读 · 0 评论 -
scrapy+selenium按照某一主题爬取zhihu相关内容
紧接前一篇分析zhihu反爬方法的博文,经过好几天的折腾,最终我还是选择通过百度搜索相关的问题,直接对问题详情页进行解析。这样做的好处在于知乎问题详情页是可以使用selenium爬取的,不必与反爬斗智斗勇,也就不用担心万一很快进一步升级反爬策略后爬虫失效,不足之处在于爬取速度肯定比不上requests请求,不过对我来说影响不是很大,所以也算找到了一种可行的方法啦。今天这篇文章将详细记录一下scrapy+selenium+mongodb爬取zhihu某主题问题与答案的方法。爬虫的总体流程很简单:使用百原创 2020-07-18 12:35:46 · 877 阅读 · 0 评论 -
爬取zhi hu的小记录
在上篇制定了爬虫计划之后,我原本打算从zhi hu爬虫入手,因为同其他需要对多个目标站进行分析的任务相比,zhi hu的问答格式很统一,但后来发现原来自己跳了个大坑QQ。坑1:使用requests对zhi hu的搜索、问题页进行爬取因为本次需要根据关键词对内容进行爬取,所以很容易想到对zhi hu的搜索页进行爬取。需要说明的是,从zhi hu的搜索页面和问题页面进行访问不是必须要登录的,所以登录这步可以绕过。然而,zhi hu的问题页有一个绕不开的问题,那就是request的回答请求头中存在加密原创 2020-07-15 00:37:11 · 638 阅读 · 0 评论 -
项目准备——爬虫及数据存储部分
本次项目主要是针对某一主题,通过搜索引擎收集相关的新闻数据,同时也要对知乎的相关问答进行爬取,便于分析话题的关注热度。本篇记录第一个任务构思过程,即编写爬虫代码收集数据。数据来源:本次聚焦比较权威和大型的新闻网站,比如腾讯、新浪等,所以需要对url进行过滤。考虑到百度检索网页很多是机构页面,从百度资讯检索可以保证较高的时效性与新闻数量。因此,爬虫的总体结构确定为: 通过百度资讯的“媒体网站”分类下进行关键字检索,对信息来源进行过滤,提取信息。这个过程需要解析百度搜索界面的结果url,与网页检索不同原创 2020-07-10 12:51:02 · 481 阅读 · 0 评论
分享