clong1112-优快云博客

原创 Nutch相关的资料 - 中文处理(收藏)

转引：http://spaces.msn.com/toa-payoh/Blog/cns!1pqSzK3dyzP-3ttQqG2BOoAA!508.entry┌─────────────────────────│Nutch相关的资料 - 中文处理 (05年06月17日开始收集) └─────────────────────────http://issues.apache.org/jira/b

2007-06-26 13:51:00 1019

原创实现NUTCH中文分词的代码修改方法(收藏)

实现NUTCH中文分词的代码修改方法现在实现基本中文分词功能的代码和软件模块很多，性能也还可以，但是怎样将其应用到NUTCH中的方法介绍相对较少，下面我就实现NUTCH中文分词的NUTCH代码修改方法与步骤，抛砖引玉的介绍一下。代码修改的切入点是通过对NUTCH处理中文的切分器Tokenizer的修改或者替换（这里介绍的是替换），使中文分词由单字切分变为词语切分。对于相关的NUTCH基本知识，

2007-06-26 13:49:00 1554

原创 Nutch Wiki ---Nutch的详细介绍（EN）(收藏)

原著未明,仅为收藏, http://wiki.apache.org/nutch/FrontPagePlease contribute your knowledge about Nutch here! General Information Nutch Website Features PublicServers running Nutch

2007-06-26 13:38:00 1407

原创 Nutch搜索引擎分析(收藏)

原著未明,仅做收藏,谅解.CODE:2006-07-27 13:4221世纪是信息的时代，也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时，也容易使人在查询自己所需的有用的相关信息时陷入迷茫。搜索引擎正是为了满足人们网络信息搜索应运而生的网络工具，它是互联网信息查询的导航针。现在的商业搜索引擎不少，但都是保密的，不便研究。而Nutch 是一个开源J

2007-06-26 13:27:00 787

原创 NUTCH研究系列4——剖析NUTCH爬虫3（收藏）

原著未明,仅做收藏,谅解.下面我们来研究一下fetch操作，在爬虫中，抓取是最主要的操作。Fetch命令：net.nutch.fetcher.Fetcher 此命令的作用就是抓取网页，但是需要注意的是，抓取的单位不是单个的网页，而是同属于一个segment的网页集合。命令格式： Fetcher [-logLevel level] [-showThreadID] [-threads n] dir

2007-06-26 13:22:00 697

原创 NUTCH研究系列3——剖析NUTCH爬虫2(收藏)

原著未明,仅做收藏,谅解.继续剖析NUTCH爬虫。接下来的几个命令和命令调用的类，主要是为最核心的fetch工作做准备的，我们首先来看看以下这些操作，然后集中精力再看fetch类。Admin -creat 命令：net.nutch.tools.WebDBAdminTool类Admin命令的作用主要是对网页库进行管理操作。其命令格式如下： java net.nutch.tools.Web

2007-06-26 12:05:00 703

原创 NUTCH研究系列2——剖析NUTCH爬虫(收藏)

原著未明,仅做收藏,谅解.erp2牛顿先生告诉我们，如果想看的远，那就得站到巨人的肩膀上。所以，在自己动手之前，前辈们的研究成果不能不先看看。在网上搜索并整理了一下，发现关于NUTCH的中文学习资料或者说是心得真的不多，其中大部分还都是关注于怎么安装配置上面，稍微深入一点的东西就只能看英文的了。看英文对于大家来说当然难度也不是很大，但是比起中文来终究是有点费时费力。所以我在学习NUTCH的过程

2007-06-26 11:14:00 899

原创 Nutch研究系列1——安装(收藏)

原著未明,仅做收藏,谅解最近着手开始研究Nutch，以前在Linux上曾经对Nutch鼓捣过一段时间，但当时纯粹是出于一种好奇和玩乐的心态，并没有对其进行过深入的探讨和研究。随着自己的论文方向锁死在搜索引擎爬虫，在此之前又一直关注于搜索算法理论和数学模型等的学习上，现在是到了静下心来在实现技术上花点功夫的时候了。其实一开始，我的目标曾经是Larbin（详细介绍请Google），但是最终转向了N

2007-06-26 10:59:00 770

原创 Nutch 笔记（二）：Craw more urls and Recrawl(收藏)

原著未明,仅做收藏,谅解.一：Recrawlnutch wiki上有现成的script，我们只需要拿来用用即可http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03把它放在nutch-0.8.1/bin/recrawl.sh，执行[Copy to clipb

2007-06-26 10:54:00 1297

原创 Nutch 笔记（一）：Nutch 快速上手指南(收藏)

原著未明,仅做收藏,谅解.QUOTE:这个笔记还是以前做项目时，用到nutch，写了两篇笔记，这个只是简单的不能再简单的使用说明而已，没什么太大的用处，就算给希望使用而不知道怎么使用的朋友一点建议吧 screen.width*0.7) {this.resized=true; this.width=screen.width*0.7; this.style.cursor=hand

2007-06-26 10:39:00 957

原创 Nutch 的配置文件 (收藏)

原著未明,仅做收藏用.谅解. Nutch 的配置文件几乎覆盖了Nutch 所有的功能。以前在网上看到过一个关于Nutch-default.XML 配置项解释，地址我没收藏，和本文配合起来看，会更好一些。这里我也不打算对其配置文件中的每一项做解释，如果在下面的解释里找不到想要的内容，请发表评论，我会回复的。 http.max.delays 20 The number of ti

2007-06-26 10:16:00 825

原创 nutch应用-合并Crawl

什么时候需要合并Crawl呢？当然是增加了新的起始url的情况下需要合并crawl。首先，在$NUTCH_HOME的bin目录中建一个文件，名为mergecrawl，将它设置为可执行的，内容如下：>> CODE#!/bin/bash# Nutch merge crawls script.# Based on recrawl script## The script

2007-06-26 10:12:00 784

转载关于 nutch 查询(收藏)

(转贴,原著未明,望谅解.)服务器端的启动命令（当前目录是Nutch的安装目录）： bin/nutch server 9999 /indexpath这样会在本机的 9999 端口开启一个监听器并默认的是启动 10个 handle 来接受查询请求。indexpath是服务器上索引文件的物理路径，可以是绝对路径，也可以是相对路径，但需要注意能够在当前目录下找得到。在客户端就是查询端

2007-06-25 17:33:00 1180

clong1112的专栏