
Lucene
文章平均质量分 89
lin_zyang
这个作者很懒,什么都没留下…
展开
-
实战 Lucene,第 1 部分: 初识 Lucene
2006 年 4 月 20 日本文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序演示了利用Lucene建立索引并在该索引上进行搜索的过程。 Lucene 简介Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最原创 2008-05-04 16:06:00 · 513 阅读 · 0 评论 -
Hadoop分布式文件系统:架构和设计要点
Hadoop分布式文件系统:架构和设计要点原文:http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。原创 2010-01-07 22:00:00 · 651 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践
内容摘要:Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂原创 2010-01-07 21:47:00 · 885 阅读 · 0 评论 -
使用 Apache Solr 实现更加灵巧的搜索,第 1 部分: 基本特性和 Solr 模式
一旦用户需要某种信息,就可以立即搜索到这些信息,这种要求再也不是可有可无的了。随着 Google和类似的复杂搜索引擎的出现,用户希望得到高质量的搜索结果,帮助他们快速、轻易地找到所需的信息。经理对您的在线购物站点同样抱有很高的期望,要求它能够提供一个可伸缩、高度可用且易于维护的搜索解决方案,并且安装这个解决方案不应太昂贵。对于您而言,只是希望事业进步,让老板和客户满意,以及保持头脑清醒转载 2010-01-04 09:51:00 · 971 阅读 · 0 评论 -
使用 Linux 和 Hadoop 进行分布式计算
Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006年 3 月份,MapReduce 和 Nutch Distributed File System (NDFS) 分别转载 2009-12-31 11:12:00 · 513 阅读 · 0 评论 -
Nutch 实战
基本信息Nutch是一个开放源代码(open-source)的Java搜索引擎包,它提供了构建一个搜索引擎所需要的全部工具和功能。使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。除了基本的功能之外,Nutch也还有不少自己的特色,如Map-Reduce、Hadoop、Plugin等。转载 2009-12-31 10:40:00 · 967 阅读 · 0 评论 -
利用SOLR搭建企业搜索平台
在网络上找了很多的关于solr的资料,发现非常的不全面,即使就是官方的wiki,也是如此! 基于现阶段正在研究的solr应用,陆续的会分享我的一些经验! 今天要说的是: 怎么跑起来! 1》 首先下载好solr,我用的是 solr1.3,下载地址: windows版本 http://labs.xiaonei.com/apache-mirror/lucene/原创 2010-01-04 10:04:00 · 3004 阅读 · 0 评论 -
使用 Apache Lucene 搜索文本
简介Lucene是一个开源、高度可扩展的搜索引擎库,可以从 Apache Software Foundation 获取。您可以将 Lucene用于商业和开源应用程序。Lucene 强大的 API主要关注文本索引和搜索。它可以用于为各种应用程序构建搜索功能,比如电子邮件客户端、邮件列表、Web搜索、数据库搜索等等。Wikipedia、TheServerSide、jGuru转载 2009-12-31 11:06:00 · 696 阅读 · 0 评论 -
开发基于 Nutch 的集群式搜索引擎
简介Nutch是一个基于 Java 实现的开源搜索引擎,其内部使用了高性能全文索引引擎工具 Lucene。从 nutch0.8.0开始,Nutch完全构建在 Hadoop 分布式计算平台之上。Hadoop 除了是一个分布式文件系统外,还实现了 Google 的 GFS 和MapReduce 算法。因此基于 Hadoop 的 Nutch搜索引擎可以部署在由成千上万计算机组转载 2009-12-31 11:02:00 · 1013 阅读 · 0 评论 -
Nutch 插件系统浅析
Nutch 基本情况Nutch是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目。它基于Java 开发,基于 Lucene 框架,提供 Web网页爬虫功能。另外很吸引人的一点在于,它提供了一种插件框架,使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展,转载 2009-12-31 10:26:00 · 704 阅读 · 0 评论 -
集成Nutch和Solr
两年前集成Nutch和Solr这两个Apache Lucene项目组下的子项目实在是件困难的事情,需要打很多补丁(patches),为他们的联姻搜寻各种必需的组件(required components)。今非昔比,时下,在Solr4.0也即将浮出水面的时候,两者的结合变的相对容易。今年早些时候发布的Nutch1.0包含了"开盒即用"的原装的(out of the转载 2010-01-04 10:18:00 · 8024 阅读 · 3 评论 -
使用solr搭建你的全文检索
Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。对Lucene不熟?那么建议先看看下面两篇文档:实战Lucene,第 1 部分: 初识 Lucene:http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/用Lucene加速Web搜索应用程序的开发:http://www.ibm转载 2010-01-04 09:57:00 · 831 阅读 · 0 评论 -
用 Lucene 加速 Web 搜索应用程序的开发
在本篇文章中,你会学习到如何利用 Lucene 实现高级搜索功能以及如何利用 Lucene 来创建 Web 搜索应用程序。通过这些学习,你就可以利用 Lucene 来创建自己的搜索应用程序。架构概览通常一个 Web 搜索引擎的架构分为前端和后端两部分,就像图一中 所示。在前端流程中,用户在搜索引擎提供的界面中输入要搜索的关键词,这里提到的用户界面一般是一个带有输入框的 Web 页面,然后应原创 2008-05-04 17:00:00 · 526 阅读 · 0 评论 -
使用 Java 开源工具建立一个灵活的搜索引擎
引言 为应用程序添加搜索能力经常是一个常见的需求。尽管已经有若干程序库提供了对搜索基础设施的支持,然而对于很多人而言,使用它们从头开始建立一个搜索引擎 将是一个付出不小而且可能乏味的过程。另一方面,很多的小型应用对于搜索功能的需求和应用场景具有很大的相似性。本文试图以对多数小型应用的适用性为出发 点,用 Java 语言构建一个灵活的搜索引擎框架。使用这个框架,多数情形下可以以最小的付出建立起一原创 2008-05-04 17:06:00 · 715 阅读 · 0 评论 -
Apache Lucene 快速入门指南
在本教程中本教程将说明使用 Apache Solr 作为企业搜索引擎的优点和简单性。注意,由于 Apache Solr 以 Apache Lucene 为基础,因此您将学到的一些概念同样会对 Apache Lucene 十分有用。您将了解如何执行以下操作: 安装 Apache Solr 使用 Solr 的命令行功能 使用 Solr 的管理界面 使原创 2008-05-04 17:02:00 · 684 阅读 · 0 评论 -
深入 Lucene 索引机制
架构概览图一显示了 Lucene 的索引机制的架构。Lucene 使用各种解析器对各种不同类型的文档进行解析。比如对于 HTML 文档,HTML 解析器会做一些预处理的工作,比如过滤文档中的 HTML 标签等等。HTML 解析器的输出的是文本内容,接着 Lucene 的分词器(Analyzer)从文本内容中提取出索引项以及相关信息,比如索引项的出现频率。接着 Lucene 的分词器把这些信息写原创 2008-05-04 16:12:00 · 481 阅读 · 0 评论 -
sequoia(c-jdbc)初体验
一.多库系统研究情况两种体系结构: 1基于数据库引擎的多库系统(各主流数据库都提供了集群版本,主要有ORACLE RAC,Mysql high availability cluster,Microsoft SQL Cluster Server, IBM DB2 UDB High Availability Cluster, PostgreR)原创 2010-03-29 13:57:00 · 1617 阅读 · 0 评论