
搜索引擎
aidayei
这个作者很懒,什么都没留下…
展开
-
solr入门与配置
1.软件下载(1).apache-solr-3.1.0,写这篇文章时的最新版本,请到apache官网上去下载,解压到如 E:/apache-solr-3.1.0。(2).apache-tomcat-6.0.32,apache官网上去下载,解压到如 E:/apache-tomcat-6.0.32。2.solr安装到tomcat(1).修改 E:/apache-tomcat-6.0.32/conf/server.xml,加个 URIEncoding="UTF-8",把 8080 的那一块改为:(2).把下面的内原创 2011-06-02 20:07:00 · 3894 阅读 · 1 评论 -
Nutch爬取与Solr搜索结合
不知道为什么在Nutch-1.3中没了Nutch自带的搜索war文件,而且在Nutch-1.3中,抓取文件后,生成的目录只有crawldb,linkdb,segments,而没有了indexs和index目录查了一下官网Wiki,上面是把Nutch的索引映射到solr,用solr来提供搜索功能,详见官网Wiki说明:http://wiki.apache.org/nutch/RunningNut原创 2011-08-03 17:10:48 · 6698 阅读 · 2 评论 -
lucene读取word,excel,pdf
前面在写lucene入门的时候,例子只能对txt文档建立索引,不能对word,excel,pdf建立索引,要读取这些文档的内容,需要额外的jar包,好在apache这个开源组织好,提供了对这些文档解析的开源jar包 索引和查询,我就不再写出来了,前面文章有,下面只将这三种文档的读取方法贴在下面 1.首先来看WORD文档:这里用的是poi,相关jar包(http://poi.ap原创 2011-06-07 20:33:00 · 5006 阅读 · 0 评论 -
solr索引如何存储
我发现一直理解错了,我一直以为分布式索引和分布式搜索是两个不同的事情,其实是一样的.把索引分布在多台计算机上,不就是正好实现了分布式搜索吗?既然索引已经分布式存储了,,因为搜索就是基于索引的,那搜索就自然是分布式的啦。.前面看网上一些理解,一直以为分布式索 引和分布式搜索是两个独原创 2011-07-18 16:14:46 · 13758 阅读 · 3 评论 -
Nutch更新索引
搜索引擎架构时都应当考虑到索引更新的问题,即当互联网上的网页发生改变(增加或者删除、修改)时搜索引擎端索引也应当进行相应的变化。Nutch也提供了一些方案用于更新索引,不过看起来比较烦琐。对于小量索引而言,可以采用最简单最聪明也是明笨的方法,即删除原有索引重新爬取网络。这种方式对原创 2011-08-18 16:13:47 · 1259 阅读 · 0 评论 -
Nutch定时抓取网页
想让Nutch定时抓取某一网站内容,cron正是解决这个问题的工具。 cron是linux下定时执行工具,可在完全无人工干预的情况下作业。就像windows中的“任务计划”功能一样在Ubuntu server 10.04下,cron是被默认安装并启动的。通过/etc/cr原创 2011-08-13 18:18:04 · 2295 阅读 · 0 评论 -
常见中文分词比较
对于英文文档,其分词的过程很简单。中文文本的分类难度较大,主要是因为汉语分词问题的困难,即为此需要建立完整的汉语概念体系、汉语语法、语义和语用分析是十分复杂的。 lucene包自带的三种中文分词:以“我是中国人”这句话作分词举例1.StandardAnalyzer:原创 2011-08-10 15:32:15 · 4716 阅读 · 2 评论 -
Nutch入门学习
因为solr生成的索引是放在本地磁盘的,为了把搜索索引放到HDFS上,所以最近看了一下搭建分布式Nutch和Nutch+solr的集成Nutch的抓取流程:对目标网站完成抓取后, 在保存抓取数据目录crawl 下产生了五个子目录: crawldb,linkdb,segment原创 2011-07-16 22:31:10 · 2213 阅读 · 0 评论 -
nutch搜索本地pdf文件
1.nutch把索引映射到solr,一定注意solrj的jar包版本一定要保持一致,不然会报版本不一致问题。我在用nutch1.3时,将索引映射到solr1.4.1时,就报版本不一致的错了,将solr换成3.1就好了用nutch1.2时,可以将索引映射到solr1.4.1,但不能原创 2011-07-27 20:39:19 · 2068 阅读 · 0 评论 -
Nutch抓取数据分析
由于刚开始理解错误,以为搜索索引可以作为数据挖掘的输入信息,后面才发现错了,由solr/nutch/lucene形成的只是搜索索引,只要由用户提供查询关键字,然后就可以查到该关键字来自哪一篇文档,并不是一篇文档的文字列表信息,而挖掘是需要有整篇文档的文字列表(档中所有单词的集合)原创 2011-07-20 18:00:22 · 6210 阅读 · 3 评论 -
nutch抓取数据后生成的文件格式
nutch抓取数据后,生成五个文件夹:crawldb、index、indexs、linkdb和segments,这五个文件夹具体存放什么内容,前面文章里有解释,每个文件夹下,最后就是data和index文件看了一下将segment目录导出文本数据的源码SegmentReader.原创 2011-07-29 11:17:53 · 3407 阅读 · 1 评论 -
solr读取word,pdf
这两天一直纠结是用lucene来做搜索应用,还是用solr来做搜索应用。lucene只提供一个可查询的包,用它来实现搜索的好处是,应用需要什么,我就用它提供的相应功能即可。而solr本身就是基于lucene的应用,对lucene又做了封装,这就相当于是在第二层基础之上开发,所以要改它是需要花时间的。但solr提供了很多lucene没有的功能,不管了,老师说要用solr,那就用solr吧luce原创 2011-06-10 10:52:00 · 13479 阅读 · 14 评论 -
solr中文分词
我在solr中尝试了以下三种开源中文分词器,其中两种都因为solr版本过高不能用,郁闷,后来将JAR包反编译,找到了原因,下面先简要说明一下三种开源中文分词器 庖丁解牛:google code上最后一次代码提交是2008.6月,不是很活跃,但用的人还很多mmseg4j:google code上最后一次代码提交是2010.12月,应该还算活跃,采用MMSeg算法,有两种分词方法:Simp原创 2011-06-05 16:15:00 · 17771 阅读 · 1 评论 -
Lucene入门简单说明
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。 其功能非常的强大,api也很简单。总得来说用Lucene来进行搜索和操作数据库是差不多的(有点像),Document可以看作是数据库的一行记录,Field可以看作是数据库的字段。用lucene实现搜索引擎就像用JDBC实现连接数据库一样简单。 1.到apache官网上下载目前的最新版本lucene-3.1.0,下载地址:h原创 2011-06-03 14:26:00 · 1196 阅读 · 1 评论 -
海量文献管理系统概述
很长一段时间不写博客了,因为最近要弄论文,但看到我的博客上被优快云加了个“恒”的小图标,要求是每个月发四篇日志以上,以鼓励大家多把东西拿出来分享。这一点其实挺好的,很多程序员擅长于编码,但并不一定讲解的很好或清晰的写出来。一个技术牛人曾说过:技术人员能把一项技术完成,仅能得及格分,如果能把操作过程写下来,能得70分,而如果能做好、能写出来,并且清晰的讲给大家听,那才可以得满分。 开源原创 2011-11-23 22:49:36 · 3001 阅读 · 0 评论