
搜索引擎
white__cat
这个作者很懒,什么都没留下…
展开
-
Lucene入门教程
http://blog.youkuaiyun.com/tianlincao/article/details/6867127转载 2014-06-24 09:29:12 · 454 阅读 · 0 评论 -
http://www.cnblogs.com/chenying99/category/468890.html
http://www.cnblogs.com/chenying99/category/468890.html转载 2014-07-09 16:06:23 · 1445 阅读 · 1 评论 -
(一)在Eclipse中搭建Heritrix 3.1
网上已经有几篇Heritrix 1.14版本的Eclipse搭建的文章,说的比较详细。本人下载了Heritrix 3.1,该版本相对Heritrix 1.14版本变化已经较大,在研究Heritrix零星的几个文档以后终于把环境搭建成功了,并把过程记录下来,希望对大家有所帮助。 Heritrix 3.1需要jdk1.6或以上版本。本人用的Eclipse是3.7 JEE版本(非必须条件)转载 2014-07-09 16:05:41 · 3447 阅读 · 0 评论 -
开源爬虫Labin,Nutch,Neritrix介绍和对比
从网上找了一些开源spider的相关资料,整理在下面: ----------------------------------------------------------------------------------- ************** Larbin 开发语言:C++ http://larbin.sourceforge.net/index-eng.h转载 2014-07-09 15:41:14 · 1798 阅读 · 0 评论 -
网络爬虫-Heritrix 和 Nutch 比较与分析
Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫:对爬虫技转载 2014-07-09 15:15:14 · 1197 阅读 · 0 评论 -
heritrix nutch
heritrix nutch转载 2014-07-09 17:28:35 · 506 阅读 · 0 评论 -
heritrix3抓取的数据直接写入到mysql中
在heritrix3抓取的过程中,我们需要把抓取过来的网页,经过分析,然后写入到数据库中。实现的方法为:继承Processor类重写innerProcess(CrawlURI curi)方法。实例如下: package com.hq.override; import java.io.IOException; import org.archive.io.Recordin转载 2014-07-09 15:56:10 · 3359 阅读 · 2 评论 -
使用nginx搭建https服务器
最近在研究nginx,整好遇到一个需求就是希望服务器与客户端之间传输内容是加密的,防止中间监听泄露信息,但是去证书服务商那边申请证书又不合算,因为访问服务器的都是内部人士,所以自己给自己颁发证书,忽略掉浏览器的不信任警报即可。下面是颁发证书和配置过程。 首先确保机器上安装了openssl和openssl-devel #yum install openssl #yum install o转载 2014-07-16 20:51:42 · 673 阅读 · 0 评论 -
squid介绍及其简单配置
squid介绍及其简单配置 1.Squid是什么? Squid是一种用来缓冲Internet数据的软件。它是这样实现其功能的,接受来自人 们需要下载的目标(object)的请求并适当地处理这些请求。也就是说,如果一个人想 下载一web页面,他请求Squid为他取得这个页面。Squid随之连接到远程服务器(比如 :http://squid.nlanr.net/)并向这个页面发出请求。然转载 2014-07-16 20:43:36 · 694 阅读 · 0 评论 -
使用nginx搭建http代理服务器
公司残忍的把QQ封掉了,但作为程序猿怎么能罢休呢,正好有个vps,就用它搭建一个http代理服务器吧^^ 其实很简单,只要简单配置即可 server { listen 8080; resolver 8.8.8.8; location /{ proxy_pass http://$http_host$r转载 2014-07-16 20:46:39 · 3689 阅读 · 1 评论 -
Lucene教程详解
注明:本文是由本人在开发有关基于lucene资源检索系统时的一点总结,其中一部分是自己根据开发过程自己总结的,也有部分是摘自网络,因无法获取当时摘文的地址,所以在此没有写源地址。 转载请声明出处 Lucene-3.0.0配置 一、Lucene开发环境配置 step1.Lucene开发包下载 step2.Java开发环境配置转载 2014-06-24 09:24:27 · 3105 阅读 · 0 评论 -
使用Nginx搭建Http代理服务器
昨天, 折腾了一个下午,终于配好了. 配置如下: server { listen 8888; client_body_timeout 60000; client_max_body_size 1024m; send_timeout 60000;转载 2014-07-16 20:48:20 · 4435 阅读 · 0 评论 -
heritrix 下载、安装、配置、以及简单开发
heritrix下载及配置 一、下载:到www.sourceforge.net网站搜索heritrix,然后分别下载下来heritrix-1.14.0-RC1.zip,heritrix-1.14.0-RC1-src.zip 二、配置 .在非开发环境下配置的步骤 1.解压heritrix-1.14.0-RC1.zip,假设解压到了c盘根目录下并把解压后的文件夹命名为转载 2014-06-24 09:34:30 · 631 阅读 · 0 评论 -
Nutch一些网址
http://blog.javachen.com/2014/05/20/nutch-intro/ http://www.promenade.me/archives/146转载 2014-07-14 10:55:07 · 410 阅读 · 0 评论