
技术日志
文章平均质量分 94
xtuhcy
这个作者很懒,什么都没留下…
展开
-
JAVA开源软件开发必备技能-发布构建到maven中央仓库的方法和详细步骤
JAVA开源软件开发必备技能 发布构建到maven中央仓库的方法和详细步骤sonatype介绍向sonatype提交申请配置mavenGPG签名发布版本通知sonatypesonatype介绍Maven项目托管在Apache上的,但是中央仓库不是Apache的资源,中央仓库是由Sonatype出资维护的。目前来说,http://repo1.maven.org/maven2/是真正的M原创 2015-12-22 21:11:35 · 1485 阅读 · 0 评论 -
无头浏览器,从phantomjs到webkit4j
一、从浏览器说起无头浏览器即headless browser,是一种没有界面的浏览器。既然是浏览器那么浏览器该有的东西它都应该有,只是看不到界面而已。浏览器内核Webkit:目前最主流的浏览器内核,webkit是苹果公司开源的浏览器内核,其前身是KHTML。基于Webkit的浏览器很多,比如Safari,Chrome,OperaGecko:是Firefox浏览器的内核Trident:是IE浏览原创 2016-10-14 11:06:45 · 11848 阅读 · 0 评论 -
DynamicGecco实现爬取规则的动态加载
Gecco爬虫框架中的SpiderBeanGecco是一个快速爬虫开发框架,能让开发人员快速的将爬取下来的页面转换为一个简单的java bean。所有的java bean都需要继承同一个接口SpiderBean。根据返回数据格式的不同可以将SpiderBean分成两个子接口——HtmlBean和JsonBean。SpiderBean的定义通常如下:@Gecco(matchUrl="...")pub原创 2016-07-14 14:31:43 · 2060 阅读 · 2 评论 -
JAVA类加载机制以及如何自定义类加载器
从双亲委派说起启动(Bootstrap)类加载器:是用本地代码实现的类装入器,它负责将 /lib下面的类库加载到内存中(比如rt.jar)。由于引导类加载器涉及到虚拟机本地实现细节,开发者无法直接获取到启动类加载器的引用,所以不允许直接通过引用进行操作。标准扩展(Extension)类加载器:是由 Sun 的 ExtClassLoader(sun.misc.Launcher$ExtClassLo原创 2016-06-16 09:31:24 · 651 阅读 · 0 评论 -
Gecco爬虫框架的线程和队列模型
简述爬虫在抓取一个页面后一般有两个任务,一个是解析页面内容,一个是将需要继续抓取的url放入队列继续抓取。因此,当爬取的网页很多的情况下,待抓取url的管理也是爬虫框架需要解决的问题。本文主要说的是gecco爬虫框架的队列和线程模型。线程和队列模型gecco的队列模型是两级队列模型。分为初始请求队列和派生请求队列。初始请求队列在循环模式下是一个阻塞式的FIFO队列,在非循环模式下是一个非阻塞式的F原创 2016-06-08 10:32:49 · 1737 阅读 · 0 评论 -
Gecco框架典型案例—闲逛APP
Gecco开源爬虫框架是2015年12月31日发布的,发布以来在易用性、可扩展性上得到了大家的肯定。目前在github上已经有230+的star,100+的fork。那么,Gecco这个新的爬虫框架在实际应用中的表现如何呢?为了让用户放心使用Gecco框架,Gecco团队发布了一款使用Gecco爬虫框架开发的APP——闲逛。这款应用更多的是用来验证Gecco框架的易用性、稳定性、可扩展性。任何脱离实原创 2016-05-31 10:55:04 · 781 阅读 · 0 评论 -
大话Android的消息机制(Handler、Looper、Message...)
大话Android的消息机制(Handler、Looper、Message…)Android的开发很重要的一点就是理解它的消息机制,Android的消息机制涉及到概念不少,HandlerThread、Handler、Looper、MessageQueue、Message、MessagePool,初学者往往看到这里就傻眼了,这么多概念。本文试着以一个比较容易理解的方式让大家明白Android的消息机制原创 2016-04-27 13:43:33 · 395 阅读 · 0 评论 -
gecco 1.1.0稳定版发布,易用的轻量化爬虫
gecco 1.1.0稳定版发布了。 1.1.0版本主要做了如下修改: 1.优化代理设置,运行时计算代理下载成功率,自动发现无效代理,支持运行时添加代理 2.HttpClientDownloader支持类似12306网站非信任ssl证书 3.JsonBean支持嵌套解析 4.修复部分网站302无法跳转的bug 5.优化debug日志输出gecco是一款易用的轻量化网络爬虫。十分的容易上手原创 2016-04-26 10:26:03 · 491 阅读 · 0 评论 -
gecco 1.0.9 发布,易用的轻量化爬虫
gecco 1.0.9 发布了。1.0.9版本主要做了如下修改:1、@Image注解增加图片自动下载到本地的方法@Image(download=”d:/gecco/jd/img”) 2、GeccoEngine改为线程方式,通过start()支持非阻塞方式运行 3、支持debug模式,GeccoEngine.debug(true) 4、简化spring项目启动Gecco的方式,详细请查看(域名备原创 2016-04-13 10:43:45 · 483 阅读 · 0 评论 -
java爬虫gecco监控来了,不再裸奔
java爬虫gecco监控来了,不再裸奔爬虫为什么要监控gecco是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有:结合spring的插件gecco-spring结合htmlunit的插件gecco-htmlunit结合reids的插件gecco-reids在开发爬虫时,由于要对很多网站和链接进行抓取,并对抓取下来的网站进行内容的抽取。大量的链接下载和内容抽取如原创 2016-03-21 13:40:23 · 2226 阅读 · 0 评论 -
加密技术入门——从对称加密到CA证书
加密技术入门——从对称加密到CA证书几个基本概念 对称加密对称加密是最传统的加密方式,简单说就是用一个密钥对原文加密,再用同样密钥对原文解密。对称加密的优点就是加密速度快,但是缺点也很明显,密钥的传递无法保障。常见的对称加密算法有DES、3DES、AES等 非对称加密为了解决密钥传递的问题,聪明的人类罗纳德·李维斯特(Ron Rivest)、阿迪·萨莫尔(Adi Shamir)和伦纳德·原创 2016-03-18 14:10:13 · 431 阅读 · 0 评论 -
教您使用java爬虫gecco抓取JD全部商品信息
教您使用java爬虫gecco抓取JD全部商品信息gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。JD网站的分析要抓取JD网站的全部商品信息,我们要先分析一下网站,京东网站可以大体分为三级,首页上通过分类跳转到商品列表页,商品列表页对每个商品有详情页。那么我们通过找到所有分类就能逐个分类抓取商品信息原创 2016-03-18 14:06:33 · 2186 阅读 · 2 评论 -
基于netty实现的socks5代理协议
基于netty实现的socks5代理协议socks5协议简介socks5协议是一个标准的代理协议,工作在网络的四层,理论上可以代理任意应用层协议。协议标准RFC1928,用户/密码鉴权标准RFC1929。协议的中文版本可以参考这里现有开源实现用的比较多的是linux下的ss5开源实现,ss5的安装和配置如下:./configure --with-debug --with-epollio --with原创 2016-12-28 17:34:25 · 1629 阅读 · 1 评论