- 博客(11)
- 资源 (6)
- 收藏
- 关注
原创 Java爬虫框架SeimiCrawler V2.0升级来袭
主要变动 完美支持SpringBoot,可以尽情的集成SpringBoot现有生态,demo参考 回调函数支持方法引用,设置起来更自然 push(Request.build(s.toString(),Basic::getTitle)); 非SpringBoot模式全局配置项通过SeimiConfig进行配置,包括 Redis集群信息,SeimiAgent信息等,SpringB...
2018-06-26 08:46:05
1382
原创 SeimiAgent使用--通过js控制以浏览器级效果登录爬取京东信息
声明本篇文章纯粹为了向还不是很了解SeimiAgent的同学演示下SeimiAgent的部分能力,目标网站随意选的,并没有其他目的。SeimiAgent简介SeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等...
2016-08-07 08:36:37
410
原创 SeimiCrawler v1.2.0发布,Java爬虫框架
变更日志v1.2.0 OkhttpDownloader支持处理contentType头中没有指定编码的中文页面 支持通过@Crawler注解中的httpTimeOut属性自定义http请求的超时时间,默认15000ms v1.1.0 可通过实现SeimiCrawler的List<Request> startRequests();来实现更复杂的起始触发请求 SemiQueue实现按需加载...
2016-07-22 07:54:59
217
原创 SeimiCrawler v1.1.0发布,Java爬虫框架
变更日志v1.1.0 可通过实现SeimiCrawler的List<Request> startRequests();来实现更复杂的起始触发请求 SemiQueue实现按需加载 修复抓取文件类型数据返回时尝试匹配meta refresh时产生的问题 v1.0.0 http请求处理器重构,并默认改由okhttp3实现,且支持通过@Crawler注解中的httpType自由切换为apach...
2016-07-07 08:14:41
261
原创 Java爬虫框架:SeimiCrawler v1.0.0发布
变更日志v1.0.0 http请求处理器重构,并默认改由okhttp3实现,且支持通过@Crawler注解中的httpType自由切换为apache httpclient 部分代码优化 支持通过seimiAgent获取页面快照(png/pdf) 简介SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,...
2016-06-29 08:07:34
245
原创 SeimiAgent——基于QtWebkit的通用网页渲染代理服务
SeimiAgentSeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数),通过SeimiAgent去加载并渲染想要处理的动态页面,然后将渲染好的页面直接返给调用方进行后续处理。SeimiAgent的加载...
2016-04-16 11:47:19
350
原创 SeimiAgent——基于QtWebkit的通用网页加载渲染代理服务
SeimiAgentSeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数),通过SeimiAgent去加载并渲染想要处理的动态页面,然后将渲染好的页面直接返给调用方进行后续处理。SeimiAgent的加载...
2016-04-16 11:45:47
414
原创 Java爬虫框框:SeimiCrawler v0.3.0发布
Change logv0.3.0 内置支持SeimiAgent,完美解决动态页面渲染抓取问题 修复自动跳转在某些情况存在的bug 简介SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余...
2016-04-16 10:32:29
402
原创 SeimiCrawler+SeimiAgent完美解决动态页面渲染Ajax抓取问题
前言曾几何时,动态页面(ajax,内部js二次渲染等等)信息提取一直都是爬虫开发者的心痛点,一句话,实在没有合适的工具。尤其在Java里面,像htmlunit这种工具都算得上解析动态页面的神器了,但是他依然不够完备,达不到浏览器级的解析效果,遇到稍微复杂点的页面就不行了。在经历的各种痛与恨后,笔者决定干脆开发一款专为应对抓取,监控,以及测试这类场景使用的动态页面渲染处理服务器。要达到浏览器级的效果...
2016-04-16 10:26:36
1981
1
原创 Java爬虫框架:SeimiCrawler v0.2.7发布
Change logv0.2.7 内嵌http接口在可以接收单个Json形式Request基础上增加支持接收Json数组形式的多个Request Request对象支持设置skipDuplicateFilter用来告诉seimi处理器跳过去重机制,默认不跳过 增加定时调度使用Demo 回调函数通过Request传递自定义参数值类型由Object改为String,方便明确处理 Fix:修复一个打日志...
2016-01-23 11:18:16
313
原创 Java爬虫框架——SeimiCrawler
SeimiCrawler An agile,powerful,standalone,distributed crawler framework. SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。 简介 SeimiCrawler是一个敏捷的,支持分布式的爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发...
2016-01-05 01:24:36
1112
ExtJS实用开发指南
2010-07-04
非常好用的ASP本地调试工具
2010-09-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅