
搜索引擎研究
文章平均质量分 75
lin_zyang
这个作者很懒,什么都没留下…
展开
-
实例源码1:利用Java调用可执行命令并取得其返回值
/** * Add one sentence class summary here. * Add class description here. * * @author lxx * @version 1.0, 2004-11-16 */public class TestCmd { public TestCmd(){} /* public void main(String args[])原创 2008-04-29 18:12:00 · 1109 阅读 · 0 评论 -
Nutch 插件系统浅析
Nutch 基本情况Nutch是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目。它基于Java 开发,基于 Lucene 框架,提供 Web网页爬虫功能。另外很吸引人的一点在于,它提供了一种插件框架,使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展,转载 2009-12-31 10:26:00 · 704 阅读 · 0 评论 -
开发基于 Nutch 的集群式搜索引擎
简介Nutch是一个基于 Java 实现的开源搜索引擎,其内部使用了高性能全文索引引擎工具 Lucene。从 nutch0.8.0开始,Nutch完全构建在 Hadoop 分布式计算平台之上。Hadoop 除了是一个分布式文件系统外,还实现了 Google 的 GFS 和MapReduce 算法。因此基于 Hadoop 的 Nutch搜索引擎可以部署在由成千上万计算机组转载 2009-12-31 11:02:00 · 1013 阅读 · 0 评论 -
使用 Linux 和 Hadoop 进行分布式计算
Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006年 3 月份,MapReduce 和 Nutch Distributed File System (NDFS) 分别转载 2009-12-31 11:12:00 · 513 阅读 · 0 评论 -
集成Nutch和Solr
两年前集成Nutch和Solr这两个Apache Lucene项目组下的子项目实在是件困难的事情,需要打很多补丁(patches),为他们的联姻搜寻各种必需的组件(required components)。今非昔比,时下,在Solr4.0也即将浮出水面的时候,两者的结合变的相对容易。今年早些时候发布的Nutch1.0包含了"开盒即用"的原装的(out of the转载 2010-01-04 10:18:00 · 8024 阅读 · 3 评论 -
TinyXml快速入门(二)
下面我介绍使用tinyxml库对xml文件进行一系列的操作,包括获取xml文件声明,查询指定节点、删除指定节点、修改指定节点和增加节点的用法。在《TinyXml快速入门(一)》中我们知道xml文件中的一个节点元素实际包含两种值:属性和文本。其中属性在我看来可以看作是STL中的map,一个属性带一个属性值,map中也是一个键带一个键值。因此查询指定节点、删除指定节点和增加节点必然是需要实转载 2010-03-16 15:07:00 · 1209 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践
内容摘要:Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂原创 2010-01-07 21:47:00 · 885 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 1 部分
Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。本文将介绍 MapReduce计算模型,分布式并行计算等基本概念,以及 Hadoop 的安装部署和基本运行方法。 Hadoop 简介 Hadoop是一个开源的可运行于大规模集群上的分布转载 2010-01-07 21:59:00 · 1158 阅读 · 3 评论 -
Hadoop分布式文件系统:架构和设计要点
Hadoop分布式文件系统:架构和设计要点原文:http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。原创 2010-01-07 22:00:00 · 651 阅读 · 0 评论 -
sequoia(c-jdbc)初体验
一.多库系统研究情况两种体系结构: 1基于数据库引擎的多库系统(各主流数据库都提供了集群版本,主要有ORACLE RAC,Mysql high availability cluster,Microsoft SQL Cluster Server, IBM DB2 UDB High Availability Cluster, PostgreR)原创 2010-03-29 13:57:00 · 1617 阅读 · 0 评论 -
对云计算中几种基础设施(Dynamo,Bigtable,Map/Reduce等)的朴素看法
<br />作者:康华 <br />文章地址:http://blog.youkuaiyun.com/kanghua/archive/2008/09/12/2919766.aspx<br /><br />前言<br /><br />云计算的概念近期可谓如火如荼,备受关注。我先前听到“云”这个名词时,很是觉得太过玄乎——也不知道它用在哪里,更不了解它如何实现,总有雾里看花的感觉!<br /><br />好在近期工作需要的缘故,学习和开发过类似于“云计算”基础设施的内部系统,之后再回过头来看看业界两大转载 2010-07-12 15:46:00 · 1145 阅读 · 0 评论 -
NoSQL数据库探讨之一 - 为什么要用非关系数据库?
<br />随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,例如:<br /><br />1、High performance - 对数据库高并发读写的需求<br />web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息,所以基本上无法使用动态页面静态化技术,因此数据库并发负转载 2010-07-13 11:40:00 · 990 阅读 · 0 评论 -
使用 Apache Solr 实现更加灵巧的搜索,第 1 部分: 基本特性和 Solr 模式
一旦用户需要某种信息,就可以立即搜索到这些信息,这种要求再也不是可有可无的了。随着 Google和类似的复杂搜索引擎的出现,用户希望得到高质量的搜索结果,帮助他们快速、轻易地找到所需的信息。经理对您的在线购物站点同样抱有很高的期望,要求它能够提供一个可伸缩、高度可用且易于维护的搜索解决方案,并且安装这个解决方案不应太昂贵。对于您而言,只是希望事业进步,让老板和客户满意,以及保持头脑清醒转载 2010-01-04 09:51:00 · 971 阅读 · 0 评论 -
TinyXml快速入门(三)
在本文中继续介绍修改指定节点和增加节点的做法。 修改节点其实和查询指定节点的值有点类似,也分为两个函数,一个实现修改文本。另一个负责修改属性。/*!* /brief 修改指定节点的文本。** /param XmlFile xml文件全路径。* /param strNodeName 指定的节点名。* /param str转载 2010-03-16 15:12:00 · 1839 阅读 · 1 评论 -
TinyXml快速入门(一)
首先介绍一下TinyXml吧。TinyXML是目前非常流行的一款基于DOM模型的XML解析器,简单易用且小巧玲珑,非常适合存储简单数据,配置文件,对象序列化等数据量不是很大的操作,其主页是:http://www.grinninglizard.com/tinyxml/,目前最新版本是2.5.3 版本。TinyXml网上的教程很多,但是我觉得写得都不怎样(感觉就是看完之后就没学转载 2010-03-16 14:54:00 · 914 阅读 · 0 评论 -
实例源码3:利用Java调用可执行命令并取得其返回值
public Vector execCmd(String path,String dbname,String filename) { /ar s=c; Vector vc=new Vector(); //String opencmd=path+"test//imgserseek.exe opendb test.db"; String原创 2008-04-30 08:59:00 · 491 阅读 · 0 评论 -
实例源码2:利用Java调用可执行命令并取得其返回值
我们的 Java 程序中有时候需要调用程序自身以外的一些程序,来完成某些计算。那么这个时候可以使用 ProcessBuilder.start() 或 Runtime.exec方法,并返回 Process 子类的一个实例,该实例可用来控制进程并获取相关信息。我用调用 Windows 系统的计算器举个例子:try ...{ // Windows 系统的计算器程序原创 2008-04-30 08:54:00 · 682 阅读 · 0 评论 -
轻量级 Web 服务器
2007 年 7 月 23 日最近几年,市场上出现了很多有趣的 Web 服务器实现,包括 lighthttpd、litespeed 和 mongrel 等。这些 Web 服务器都宣称结合了性能、易管理性、可移植性、安全性和其他相关价值。下面的工程研究将调查轻量级 Web 服务器,以帮助您选择最可能满足下一个项目的技术需求的 Web 服务器。 “轻量级” Web 服务器,例如转载 2008-05-06 09:41:00 · 1232 阅读 · 0 评论 -
Web2.0网站列表:网络操作系统(WebOS)服务网站
WebOS(Web-based Operating System)或者称为网络操作系统,是一种基于浏览器的虚拟的操作系统,用户通过浏览器可以在这个WebOS上运用基于Web的在线应用(Web Application)的操作来实现PC操作系统上的各种操作(包括文档的存储,编辑,媒体播放等等)。目前随着在线网络应用服务的不断发展,在线存 储,在线Ofiice等等都为网络操作系统的发展提供了很好的基础。转载 2008-06-17 11:25:00 · 1378 阅读 · 0 评论 -
Smile Measurement:笑脸识别软件
日本Omron公司推出了一款Smile Measurement Software软件。其能够进行对图像中的人物进行笑脸识别,同时从0%到100%来显示微笑的状态。支持多个头像同时识别功能,识别时间仅为 0.044秒。而且软件的体积公为46Kb,能够轻易整合到数码相机,拍照手机或者摄像机等设备中。via 使用支持此功能的数码相机在拍摄照片时,便能够轻易分辨出被拍对象是否真的在笑或者是喊出了原创 2008-06-17 11:26:00 · 1505 阅读 · 0 评论 -
Rescuetime:时间管理利器(强烈推荐)
Rescuetime是一款用于协助管理时间的软件兼在线服务。在内测了半年后,终于开始了Public Beta。 通过安装在电脑里的监视软件,能够记录用户在电脑上的所有操作和对应的使用时间。包括任何使用的软件,比如资源管理器,Word, Outlook, Mediaplayer等等,同时还能够监视用户通过浏览器所访问的网址。而且它并不是仅靠激活的窗口来记录操作时间,而很可能是监视当前窗口下转载 2008-06-17 11:57:00 · 1747 阅读 · 0 评论 -
Nutch 实战
基本信息Nutch是一个开放源代码(open-source)的Java搜索引擎包,它提供了构建一个搜索引擎所需要的全部工具和功能。使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。除了基本的功能之外,Nutch也还有不少自己的特色,如Map-Reduce、Hadoop、Plugin等。转载 2009-12-31 10:40:00 · 967 阅读 · 0 评论 -
使用 Apache Lucene 搜索文本
简介Lucene是一个开源、高度可扩展的搜索引擎库,可以从 Apache Software Foundation 获取。您可以将 Lucene用于商业和开源应用程序。Lucene 强大的 API主要关注文本索引和搜索。它可以用于为各种应用程序构建搜索功能,比如电子邮件客户端、邮件列表、Web搜索、数据库搜索等等。Wikipedia、TheServerSide、jGuru转载 2009-12-31 11:06:00 · 696 阅读 · 0 评论 -
Linux 上的云计算
最近,没有哪家技术性网站不提到所谓的云计算的。云计算其实就是以服务的形式提供计算资源(计算机和存储)。这又涉及到以一种简单、透明的方式动态地将服务延伸到更多的计算机和存储的能力。所有这些都类似于效用计算(utility computing)背后的思想。在效用计算中,计算资源被看作一种计量服务,就像更传统的公共设施(例如水或电)一样。它们的区别不在于这些思想背后的目标,而在于组合到一起、使这转载 2009-12-31 11:17:00 · 582 阅读 · 0 评论 -
使用solr搭建你的全文检索
Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。对Lucene不熟?那么建议先看看下面两篇文档:实战Lucene,第 1 部分: 初识 Lucene:http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/用Lucene加速Web搜索应用程序的开发:http://www.ibm转载 2010-01-04 09:57:00 · 831 阅读 · 0 评论 -
利用SOLR搭建企业搜索平台
在网络上找了很多的关于solr的资料,发现非常的不全面,即使就是官方的wiki,也是如此! 基于现阶段正在研究的solr应用,陆续的会分享我的一些经验! 今天要说的是: 怎么跑起来! 1》 首先下载好solr,我用的是 solr1.3,下载地址: windows版本 http://labs.xiaonei.com/apache-mirror/lucene/原创 2010-01-04 10:04:00 · 3004 阅读 · 0 评论 -
Google云计算核心技术
<br />本系列是基于公开资料对Google App Engine是如何实现的这个话题进行深度探讨。而且在切入Google App Engine之前,首先会对Google的核心技术和其整体架构进行分析,以帮助大家之后更好地理解Google App Engine的实现。<br /><br />本篇将主要介绍Google的十个核心技术,而且可以分为四大类:<br />分布式基础设施:GFS,Chubby和Protocol Buffer。<br /><br />分布式大规模数据处理:MapReduce和转载 2010-07-12 10:24:00 · 1406 阅读 · 0 评论