
爬虫
文章平均质量分 91
Healist
积极向上的小年轻,努力提高的小码农
展开
-
WebMagic爬虫小实践
谁说java没有相对清新的框架,webmagic就算的上一个,webmagic是参照python的scrapy来做的java爬虫框架,作者黄亿华大大文档也很小巧,基本花个半天就可以直接上手了这个框架提供了俩种方式,一个就是自己写java类,另一种就是基于注解,我这里是用的方式是自己写java类,很简单的一个入门demo,爬取我们学校的就业招聘会信息,只爬取对于当前时间还有效的并且数据库中没有的报告信原创 2016-11-18 15:54:41 · 490 阅读 · 0 评论 -
InfoHunter —— 本校招聘宣讲会信息的webapp
不知不觉马上就要大三下学期了,也该为实习做准备了。。。这几天抽空做了一个稍微跟招聘有些联系的东西,就是一个宣讲会信息展示的webapp,招聘信息爬取自我们学校的就业信息网,那个网站界面乱而且我不关心的信息也多,我觉得自己做一个比较个性化的相关项目也很有必要,所以我在爬虫的基础上扩展了以下,后端定时自动爬取宣讲会信息,并且在webapp上展示并且提供用户注册登陆,除此之外最有用的是登陆的用户可以在这上原创 2017-02-02 22:52:11 · 832 阅读 · 0 评论 -
URL去重思路
所谓的Url去重(我一直没找到对应的英文,URL Filtering ?),就是爬虫将重复抓取的URL去除,避免多次抓取同一网页。爬虫一般会将待抓取的URL放在一个队列中,从抓取后的网页中提取到新的URL,在他们被放入队列之前,首先要确定这些新的URL没有被抓取过,如果之前已经抓取过了,就不再放入队列。最直观的做法 – hash表为了尽快把整个爬虫搭建起来,最开始的URL去重采用方案是一个内存中的H转载 2017-01-28 22:07:26 · 4597 阅读 · 0 评论