
搜索
文章平均质量分 77
hhdem
这个作者很懒,什么都没留下…
展开
-
转:Nutch 搜索结果高亮 和摘要长度解决
高亮显示比较简单,网上也有很多介绍代码。修改如下:将 org.apache.nutch.searcher.Summary 第 54行 代码 修改为:public String toString() { return "" + super.toString() + ""; }增加索引长度花了我比较长的时间 , 不过后来发现原来有两个参数是专门调整索引长度的 ,刚看代码的时候没有注意到 ,在org.a转载 2006-12-15 16:35:00 · 1180 阅读 · 0 评论 -
Hadoop 文章
Hadoop入门 单节点的安装与测试1 下载hadoop的相应版本2 设置conf目录下的hadoop-env.sh文件,最低要求是要配置JAVA_HOME这个环境变量3 设置conf目录下的hadoop-site.xml配置文件,fs.default.namelocalhost:9000mapred.job.trackerlocalhost:9001dfs.replication14 配置本转载 2007-11-21 17:10:00 · 1497 阅读 · 0 评论 -
转:Getting Started with Hadoop
我一直都对分布式文件系统非常感兴趣,特别喜欢研究如何在庞大的廉价的异构系统集群上进行容错性良好的分布式存储。这些话题总是能吸引我的注意力。记得2002年的时候因公司的需要有机会实践了一把 OpenAFS 和 Coda ,印象深刻,呵呵。好了,闲话少叙,今天将要谈论的是后起之秀 Hadoop 。Hadoop 是大名鼎鼎的 Lucene 旗下的子项目,它原先是 Nutch 项目的组成部分,于200原创 2007-04-09 11:03:00 · 647 阅读 · 0 评论 -
转:Hadoop 不需要分布式编程经验地分布式编程
作者:江南白衣 Hadoop 是 Google labs 的MapReduce的一个实现,Nutch项目的全部数据处理都构建在其之上。MapReduce是一种简化的分布式编程模式,让程序可以自动在普通机器组成的集群中以并行方式分布执行。 就如同java程序员可以不考虑内存泄露一样,MapReduce程序员也不许要关心海量数据如何被分配到多台机器上,不需要考虑机器失效的处理,不需转载 2007-02-02 16:31:00 · 705 阅读 · 0 评论 -
转:hadoop 试用
Statistic.java1. 初始化配置文件,临时文件存放目录,还有具体的Job。 Configuration defaults = new Configuration(); File tempDir = new File("tmp/stat-temp-"+Integer.toString( new Random().nextInt(I转载 2007-01-24 12:48:00 · 1083 阅读 · 0 评论 -
转:Hadoop Inside - JobConf
启动一个Hadoop任务,一般流程是创建一个JobConf,然后调用JobClient.runJob执行。就从这里入手分析。runJob是一个静态方法,首先将输入的JobConf构造一个JobClient实例 /** * Build a job client, connect to the default job tracker */ public JobCli转载 2007-01-24 10:26:00 · 2748 阅读 · 0 评论 -
转:Nutch中Analysis包下的NutchAnalysis.jj详细解读
Nutch需要对抓取回来的网页进行分析,但是传统的编写分析太麻烦,这里用了一个很方便的javacc工具来方便编写分析的java(javacc会自动根据.jj文件生成java文件),如果您对于javacc的语法不甚了解的话不妨先看看javacc的语法,在这里也会对原代码进行比较详细的注释。用户如果要给nutch添加中文分词,都可以从这个文件着手。NutchAnalysis.jj:/**转载 2007-01-11 17:17:00 · 1677 阅读 · 0 评论 -
转:Nutch package 下的build.xml解读
花了很多时间来读这个build.xml,并不是这个包不好读,相反可读性非常强,这就是xml的好处.自己花了很多的时间去熟悉ant!从Ant的task,type,nested element等一点一点读起.这样整个nutch的配置结构,我就了解的更加清楚了.解下来的任务就是继续熟悉一下Javacc这个软件,在读一下它的api文档,下来的工作就是修改nutch了.将build.xml的内容转载 2007-01-10 15:40:00 · 878 阅读 · 0 评论 -
转:DissectingTheNutchCrawler from wiki.apache.org/nutch
DissectingTheNutchCrawlerDissecting the Nutch 0.5 Crawler(10/2004 kangas) Revisions 1.1 20 Apr 2005转载 2007-02-09 11:45:00 · 514 阅读 · 0 评论 -
转:深入 Lucene 索引机制
架构概览图一显示了 Lucene 的索引机制的架构。Lucene 使用各种解析器对各种不同类型的文档进行解析。比如对于 HTML 文档,HTML 解析器会做一些预处理的工作,比如过滤文档中的 HTML 标签等等。HTML 解析器的输出的是文本内容,接着 Lucene 的分词器(Analyzer)从文本内容中提取出索引项以及相关信息,比如索引项的出现频率。接着 Lucene 的分词器把这些信息写转载 2006-12-25 12:55:00 · 665 阅读 · 0 评论 -
转:用 Lucene 加速 Web 搜索应用程序的开发
在本篇文章中,你会学习到如何利用 Lucene 实现高级搜索功能以及如何利用 Lucene 来创建 Web 搜索应用程序。通过这些学习,你就可以利用 Lucene 来创建自己的搜索应用程序。架构概览通常一个 Web 搜索引擎的架构分为前端和后端两部分,就像图一中所示。在前端流程中,用户在搜索引擎提供的界面中输入要搜索的关键词,这里提到的用户界面一般是一个带有输入框的 Web 页面,然后应用转载 2006-12-25 14:26:00 · 652 阅读 · 0 评论 -
转:Crawl the Nutch
Crawl the Nutch -- Map Reduce 初见于Google Lab的Paper, http://labs.google.com/papers/mapreduce.html, 论文中表明在有大量集群支撑的情况下,可以快速的在海量文档中进行数据处理。现在你有一堆数据,你需要按记录修改、查询、插入和删除,一种办法是你为这些 记录建立索引,比如放入数据库,还有一种办法就是--M转载 2006-12-15 15:53:00 · 594 阅读 · 0 评论 -
转:Nutch Hadoop Tutorial
NutchHadoopTutorialHow to Setup Nutch and HadoopAfter searching the web and mailing lists, it seems that there is very little information on how to setup Nutch using the Hadoop (formerly NDFS)转载 2006-12-15 13:50:00 · 1991 阅读 · 0 评论 -
转:Hadoop 学习
Hadoop 的文件系统,最重要是 FileSystem 类,以及它的两个子类 LocalFileSystem 和 DistributedFileSystem。 这里先分析 FileSystem。抽象类 FileSystem,提高了一系列对文件/目录操作的接口,还有一些辅助方法。分别说明一下:1. open,create,delete,rename等,非abstract,部分返回 FSDataOu转载 2006-12-17 15:36:00 · 973 阅读 · 0 评论 -
Nutch 里面 failed with: java.lang.NullPointerException 解决
failed with: java.lang.NullPointerException 需要在nutch的配置文件 conf/nutch-site.xml. 里设置如下,不然就报上面的错误了。当然在crawl-urlfilter.txt里面也要相应于 urls/url.txt里的域名进行设置。 http.agent.name MySearch My Search En原创 2007-11-21 14:05:00 · 949 阅读 · 0 评论