Python爬虫
文章平均质量分 62
毕知必会
咸鱼程序员一枚,需要源码的可以加vx:cxy_bs1024 联系
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
国内疫情统计及预测分析系统
国内疫情统计及预测分析系统原创 2022-01-16 14:39:24 · 3164 阅读 · 10 评论 -
爬虫:python采集豆瓣影评信息并进行数据分析
前言:最近比较有时间,替一个同学完成了一个简单的爬虫和数据分析任务,具体的要求是爬取复仇者联盟4 的豆瓣影评信息并进行简单的数据分析,这里的数据分析指的是提取关键词并进行词云分析以及按照时间进行热度分析,分析比较简单,后续可以继续完善。首先,献上数据采集和分析的结果。短评数据按照该同学的要求,只采集了1000条数据,有需要更多数据的同学可自行修改采集的限制即可下面,我们就来详细描述下如何完成数据采集和数据分析的工作的首先,爬虫的第一步,分析页面元素,打开网页,按下F12,查看数据请求原创 2020-07-05 21:19:38 · 3004 阅读 · 5 评论 -
Python爬取前程无忧十万条招聘数据
前言:本文是介绍利用代理IP池以及多线程完成前程无忧网站的是十万条招聘信息的采集工作,已适当控制采集频率,采集数据仅为了学习使用,采集十万条招聘信息大概需要十个小时。起因是在知乎上看到另一个程序猿写的前程无忧的爬虫代码,对于他的一些反反爬虫处理措施抱有一丝怀疑态度,于是在他的代码的基础上进行改造,优化了线程的分配以及页面访问的频率,并加入了代理IP池的处理,优化了爬虫效率。原始代码文章链接:https://zhuanlan.zhihu.com/p/146425439首先,奉上本文依赖的基础的爬虫原创 2020-06-23 18:16:18 · 2622 阅读 · 2 评论 -
爬虫:利用selenium采集某某环境网站的空气质量数据
前言:在上一篇文章中,我们介绍了在PM2.5.in这个网站采集空气质量的数据,本篇文章是对其产生的一些问题的另一种解决方案,提供更加权威的数据采集。技术框架:selenium、json、etree这里的selenium是一种自动化测试的工具,它可以帮助我们模拟浏览器打开网页并获取网页数据,本文之所以选择这种方式进行,是因为以requests方式直接请求无法获取到正确的数据,这个网页的数据是动态加载,需要用户执行点击操作才会被请求我们还是按照常规套路来分析下这个网站,打开F12,看下这个网站.原创 2020-06-19 10:59:09 · 720 阅读 · 3 评论 -
利用爬虫技术采集国外肺炎疫情数据
前言:随着国内肺炎疫情的逐渐好转,国外的疫情却越来越严重,其中原因,相必大家都心领神会,想到这里,我打算采用自身所学的技术采集下最新的国外数据,掌握最新的动态,希望能有一天也能看到不再增长的疫情传播。前期准备:作为爬虫,我们首先就要选择一个合适的目标网站,这里我们选择的是丁香园的数据,如下图所示找到目标网站后,我们需要对网站提供的数据来源进行分析,找到其真实的数据请求,我们打开浏览器的F12,看下network里的请求,从上到下依次分析,当我们宣召到如下图所示的请求中,可以发现他的响应中似乎包.原创 2020-06-04 15:17:51 · 944 阅读 · 0 评论 -
无编程爬虫就是这么简单
文章背景:最近在研究爬虫技术的时候,接触到一些运营人员,发现他们的需求有的其实很简单,不一定非要用Python来编写定制化爬虫代码即可实现,下面我就介绍一种很容易上手的办法爬取一些业务场景不是很复杂的数据。爬取原理:利用谷歌内核的浏览器插件Webscraper定制化爬取规则,让浏览器自动执行爬取操作,下面让我们以时光电影热度为例从零开始教你使用该插件爬取你想要的数据。工作准备:首先,你需要...原创 2019-12-18 23:25:38 · 381 阅读 · 0 评论
分享