
搜索引擎
文章平均质量分 61
kauu
搜索引擎工程师
展开
-
nutch 搜索引擎安装全过程(原创)windows下
最近对搜索引擎研究了一下子,,学到了许多,而对大名顶顶的lucene也有一点认识了,只是它不是一个完整的搜索引擎,所以又找到了刚开源不久的nutch,对比了网上的几篇文章,自己动手做了一下。 现在把自己的全过程总结一下。 -。我的电脑的配置: win2000 crgwin tomcat-4.1.31 nutch-0.7.1.tar j2sdk 1.5原创 2006-01-21 18:25:00 · 3274 阅读 · 0 评论 -
Lucene in Action (中文)
Lucene in Action 中文版 ERIK HATCHER OTIS GOSPODNETIC zw_ren译 主要内容 第一部分 Lucene核心 1. 接触Lucene 2. 索引 3. 为程序添加搜索 4. 分析 5. 高极搜索技术 6.转载 2006-08-10 12:56:00 · 7515 阅读 · 8 评论 -
Heritrix-- 开源crawler
是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负转载 2007-01-18 13:29:00 · 4206 阅读 · 1 评论 -
开发垂直门户的分布式搜索引擎系统
最近遇到了头疼的事情,就是开发垂直门户的分布式搜索引擎系统时,发现有四种不同应用的分布式搜索引擎:1.分布式元搜索: 拥有多个单原创 2007-01-15 13:06:00 · 2654 阅读 · 0 评论 -
Spirit+lucene+nutch
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸, 是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别 是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以 网页块为最小单位,而垂直搜索是以结构化原创 2007-08-23 12:30:00 · 3237 阅读 · 0 评论 -
Nutch的Analysis包详解
对于中国用户,最早遇到的棘手问题可能就是中文分词了。由于nutch对中文的支持默认是单字分词,所以很多人在一拿到nutch后要解决的第二件事情 (第一件事情当然是让nutch跑起来了)往往是要加入一个可行的中文分词模块。所以对这个包研究的人也是最多的,在网上关于nutch的中文分词的文章 也是人气很高的。那么就让我们一起来走近它看看它到底是怎么一回事,也让我们来做个中文分词器让中文在nut原创 2007-10-23 15:24:00 · 3976 阅读 · 4 评论 -
Nutch Crawler工作流程
Nutch Crawler工作流程及文件格式详细分析Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。 一、总体介绍: 1、先注入种子urls到crawldb 2、循环: generate 从crawldb中生成一个ur原创 2007-10-14 09:58:00 · 15064 阅读 · 6 评论 -
nutch的cache策略及cache策略研究
一个成熟的商业搜索引擎的cache应该是比较成功的,因为在长期的实践中证明 cache的好坏很大地影响着搜索引擎的效率。虽然I/O、算法等等很大地影响着搜索效率,但是在相差不大或着说在同一数量级上时,cache却可以让引 擎的效率成倍或大大地提高。在nutch中当然也是有cache的,只不过比较初级而已。 在nutch中负责cache的是原创 2007-11-02 13:43:00 · 4705 阅读 · 1 评论 -
Nutch距离一个商业应用的搜索引擎还有多远
参考:http://lotusroots.bokee.com/6106980.html 了解nutch的人基本上对这个开源的系统都是比较欣赏的,起码在国内是这样的,也很有多搜索网站是基于这个系统修改过来的,不过要做得好,做得真正是一个商业化的搜索,这个修改就不是一朝一夕的事情,也不是修修剪剪那么简单了。 作为一个通用的全网级别的搜索引擎架构,nutch(lucene)确实为广大原创 2007-11-05 14:58:00 · 4653 阅读 · 5 评论 -
新闻聚类系统---news.baidu.com
要做一个新闻聚类系统,大概就和http://news.baidu.com类似的。 可是没有什么想法呀! 怎么办呢? 这样的新闻, 要有抓取,存到一种“格式”里,或XML,或HDFS或DB里, 二是要用分类器,基于SVM也好,KNN也好, 三是要有聚类-carrot2,或其它。 这样,三个重要组件都已经想到了,接下来就要设计了-------------------------------原创 2006-12-01 22:31:00 · 3596 阅读 · 2 评论 -
阅读nutch.Analysis.jj
今晚对nutch的analysis.jj 进行了详细的阅读。这是我对它加入ICTCLAS分词后的.jj文件。/** * Copyright 2005 The Apache Software Foundation * * Licensed under the Apache License, Version 2.0 (the "License"); * you may not use this fil原创 2006-11-17 22:56:00 · 2498 阅读 · 0 评论 -
对NUTCH 文章的收集
几日来对搜索引擎的原理技术与系统进行了一点学习与研究,,同时也对开源的lucene和基于它的nutch进行了学习只是由于在学校的机房, 不能进行实验,很是可惜。 大体上了了解了搜索引擎的一引些技术内容。但还没出有进行实验,所以感觉还是很没底,也在网上找了一些资料,, 但关系此的文章不多,,, 现在把这几个列在下面.(以以供大家参考) 竹笋炒肉: 试用nutch http://hedong.原创 2006-01-17 10:55:00 · 1391 阅读 · 0 评论 -
win nt下调用nutch的脚本,可实现自动运行咯。
现在正对搜索引擎有兴趣,我的搜索基于nutch,并结合了ICTCLAS,分词和速度都不错。这样做可以不用crywin来模拟linux下面是在win nt下调用nutch的脚本,你可以自己改一下,这样就可以很方便的实现自动运行了。有兴趣的朋友可以用一下,大大方便了操作。nutch.bat@cmd /V:on /c %~dp0nutch1.bat %*nutch1.bat@echo onrem ***原创 2006-05-01 23:25:00 · 1633 阅读 · 4 评论 -
On Bots 翻译 (搜索引擎机器人的研究报告)
[更新]On Bots 翻译 (搜索引擎机器人的研究报告)document.title="[更新]On Bots 翻译 (搜索引擎机器人的研究报告) - "+document.title原文链接:http://drunkmenworkhere.org/ 翻译:袁晓辉 转载请注明出处 blog.youkuaiyun.com/uoyevoliOn Bots Intro翻译 2006-05-13 20:00:00 · 1506 阅读 · 0 评论 -
Solr 企业级搜索引擎简介
Solr 企业级搜索引擎简介 Solr 是一个独立的企业级搜索引擎服务器,并提供类似web-service 的API接口。可以通过http协议把文档以xml格式的方式放入索引库。同样通过HTTP的GET协议接收XML格式的文档。 看到这里我想起了车东主持开发的WebLucene,早在3年前车东就为lucene提供了XML接口,后来吕克让也在此基础上添加了很多功能,大大方便转载 2006-05-17 22:35:00 · 1250 阅读 · 1 评论 -
搜索引擎技术核心揭密(PHP)
编者按:这是一篇精彩的编程教学文章,不但详细地剖析了搜索引擎的原理,也提供了笔者自己对使用PHP编制搜索引擎的一些思路。整篇文章深入浅出,相信无论是高手还是菜鸟,都能从中得到不少的启发。 谈到网页搜索引擎时,大多数人都会想到雅虎。的确,雅虎开创了一个互联网络的搜索时代。然而,雅虎目前用于搜索网页的技术却并非该公司原先自己开发的。 2000年8月,雅虎采用了Google(www.goog转载 2006-06-07 21:56:00 · 1691 阅读 · 1 评论 -
搜索三大定律,[出自搜索引擎直通车]
搜索引擎走到今天,已经是一个结束过去,开辟未来的时候了。为了说清楚我所讲的第三定律,我们先来回顾一下第一和第二定律。 ■ 第一定律 相关性定律 听起来象是一篇学术论文,的确,就连第一,第二定律的提法以前也没有过,但是第一,第二定律的内容确早已在业界和学术界得到了公认。其实这第一定律是早在 互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索,或信息检索,也有叫全转载 2006-06-07 21:52:00 · 1849 阅读 · 0 评论 -
c# windows开源google搜索引擎
很多时候感觉用www.google.com搜 索网站挺麻烦的,查阅MSDN的知识库后用C#写了这个windows应用程序版的google搜索引擎,主要调用了google开放出来的web service,不过搜索时速度还不是很快,但至少省去了右键[在新窗口中打开]的麻烦,以下是程序的源码,虽然挺长的,不过关键代码并不多,抛砖引玉 吧。//Form1.csusing System;usin转载 2006-06-07 21:59:00 · 2063 阅读 · 1 评论 -
Nutch 0.7.2 学习笔记
Nutch 学习笔记 我的jdk 是1.5.x ,Tomcat是5.0.x1 下载0.7.2 版本的包:里面已经包含了war文件,所以不需要Ant编译了2 安装Cygwin,这个没什么好说的。3 把Nutch借压缩到D:/nutch4 在D:/nutch下面建立一个文件 urls (没有后缀)http://www.ybu.edu.cn/5 在D:/nutch转载 2006-11-01 20:54:00 · 1508 阅读 · 0 评论 -
nutch 高亮和增加索引长度
高亮显示比较简单,网上也有很多介绍代码。修改如下:将 org.apache.nutch.searcher.Summary 第 54行 代码 修改为: public String toString() { return "" + super.toString() + ""; }增加索引长度花了我比较长的时间 , 不过后来发现原来有两个参数是专门调整索引长度的 ,刚看代码的时候没有注意到转载 2006-11-18 20:35:00 · 1849 阅读 · 0 评论