
爬虫
文章平均质量分 91
织网者Eric
数据挖掘与分析,英语教育
展开
-
爬虫工具在就业市场的受欢迎程度
整整两个月之前,由于项目需要,我需要学习一下爬虫技术。我看了很多文章,也不知道哪个工具好,哪个工具受欢迎,学了哪个工具以后会有利于找工作。我想了半天,突然想到了,何不直接上51job去看呢,于是,我查了15job上面北上广深杭工资在15000以上的345个岗位,一个一个的打开所有的页面,才找到了我想要的答案。具体看下文。 http://blog.youkuaiyun.com/juwikuang/article原创 2017-05-26 23:27:18 · 3387 阅读 · 0 评论 -
[Scrapy爬虫]自己修改常用网站,去广告,省时间
介绍用Scrapy爬了某美剧网站,本来不想爬的。但是这个网站广告太多了,而且最近还把一个页面分成了六个。我每次访问都要打开六个页面,看很多广告,我的破电脑经常卡住,我都快疯了。于是,我自己做了爬虫去爬,爬完了以后,生成一个个没有广告的页面,顿时心情好了 ^_^。看,都是广告,而且把资源按天分成了六页。于是,我自己动手,自定义(客製化, customise)了这个网站。下图是效果。可见自定义以后,页面原创 2017-05-30 12:01:49 · 2875 阅读 · 0 评论 -
Python 爬虫分析豆瓣 TOP250 之 信息字典 和 马斯洛的锥子
问题本文是对《Python 爬虫分析豆瓣 TOP250 告诉你程序员业余该看什么书?》 一文的补充我们以《追风少年》为例用chrome的developer tool查看源代码这里发现,源代码的HTML比较难以分析(Parse)。在原作者的文中,把这些都放在了一起。[美] 卡勒德·胡赛尼 / 李继宏 / 上海人民出版社 / 2006-5 / 29.00元而这样并不能满足我的要求(...原创 2019-02-27 15:19:47 · 786 阅读 · 2 评论 -
部署scrapy爬虫到AWS Ubuntu 18.04,用crontab定时执行
本文介绍了如何把windows下面的scrapy脚本部署到AWS Ubuntu上,并使用crontab定时执行。申请AWS EC2 Ubuntu虚拟机首先安装Minicondahttps://docs.conda.io/en/latest/miniconda.html然后按装scrapyconda install scrapy安装MSSQL Driver不要看网上乱七八糟的文章,直...原创 2019-03-23 11:38:23 · 1202 阅读 · 0 评论 -
爬虫工具之就业调查
由于我准备网上爬一点信息,所以想找一些爬虫工具。为了搞清楚现在什么爬虫工具最流行,我自己去51job做了调查。调查的方法很简单,就是去51job搜索爬虫两个字,看岗位需求。我选取了北上广深杭5个主要互联网城市,工资水平设置在1.5万以上(工资低的大家应该没兴趣了)。调查时间为2017年3月26日9点左右。搜索爬虫两个字,出来了345个结果。虽然结果很多,但是只有大概前面100多...原创 2017-03-26 14:45:18 · 2729 阅读 · 1 评论