
搜索引擎
吴冬冬
此处省略300字
展开
-
在Eclipse中的配置Heritrix
网上缺少这方面的文章,即使有也大都行不通,下面列举本人的真实操作以供参考。前提工作:下载2各包 heritrix-1.12.1.zip 和heritrix-1.12.1-src.zip创建java project解压heritrix-1.12.1.zip 将lib目录和webapps目录复制到工程主目录下,将lib目录下的所有jar添加到工程的build path中。解压heri原创 2008-02-06 10:47:00 · 2037 阅读 · 0 评论 -
Lucene深入研究(1)
Apache Lucene is a high-performance, full-featured text search engine library. Heres a simple example how to use Lucene for indexing and searching (using JUnit to check if the results are what翻译 2008-06-06 14:14:00 · 2048 阅读 · 0 评论 -
Lucene深入研究(3)
Package org.apache.lucene.document Description The logical representation of a Document for indexing and searching.The document package provides the user level logical representation of co翻译 2008-06-06 16:38:00 · 1601 阅读 · 0 评论 -
搜索引擎词汇
爬虫:Crawler蝴蝶结:bow tie万维网直接:半衰期:half-lifeMD5签名算法Bitmap数据结构网页重要度量泊松分布多爬虫多调度员网页库投票方法I-Match Shingle中文分词统计学PageRank全文检索游程编码变长编码倒排索引齐普夫法则拉链法向量空间模型TF/IDF权重算法自动摘原创 2008-06-13 10:05:00 · 1588 阅读 · 0 评论 -
lucene之旅(一)——Lucene总览
Lucene是一款开源的搜索软件,它包括以下子项目:lucene java,王牌子项目,提供基于java的索引和搜索技术,还有拼写检查,匹配高亮和高级的分词能力。Driods,是一款智能的自动爬取框架,目前还是孵化状态。Lucene.Net,lucene的C#版本,也在孵化中。Lucy,Lucene的C版本,大部分是用C实现的。Mahout,lucene的子项目,目的是建立原创 2009-08-20 14:23:00 · 2078 阅读 · 0 评论 -
WhatAnalyzer开源分词项目参与方法(二)
1.安装Egit插件,插件地址:http://download.eclipse.org/egit/updates2.配置下git的user setting,最好与git hub上保持一致。3.生成自己的SSH公钥,我之前的文章有讲到:http://blog.youkuaiyun.com/lastsweetop/article/details/82517844.点击Account setting,进入用户设置界原创 2012-12-05 15:03:57 · 7396 阅读 · 0 评论 -
WhatAnalyzer开源分词项目参与方法(三)
1.回到你自己的仓库界面,例如https://github.com/xxxxxxxxxxx/what-analyzer,复制你的ssh地址 2.在git repo视图里点clone repo图标,然后把刚才的网址复制进去,不用输入其他信息,直接点下一步3.在你刚才引入的库中如图位置,右键import project,,然后一步步创建出工程4.这时候已经生成了你需要的项目,然后右键你的项目点属性,转原创 2012-12-05 16:08:51 · 7524 阅读 · 0 评论 -
WhatAnalyzer开源分词项目参与方法(一)
第一步,打开https://github.com/网站,点击Sign up for free2.注册账号3.打开https://github.com/lastsweetop/what-analyzer,点fork到现在,你已经有了WhatAnalyzer项目的副本repo。原创 2012-12-05 14:35:51 · 7342 阅读 · 0 评论 -
Lucene深入研究(2)
ParsingApplications that build their search capabilities upon Lucene may support documents in various formats – HTML, XML, PDF, Word – just to name a few. Lucene does not care about the Pars翻译 2008-06-06 12:14:00 · 1803 阅读 · 0 评论 -
Lucene文件名含义
final class IndexFileNames { /** Name of the index segment file */ static final String SEGMENTS = "segments"; /** Name of the generation reference file name */ static final String SEGMENTS_GE原创 2008-07-16 08:46:00 · 2855 阅读 · 2 评论 -
无信息的搜索策略的8种策略
无信息搜索也称为盲目搜索,这个术语意味着除了问题中提供的定义之外没有任何关于状态的附加信息。可以做的事情只能是生成后继。一。广度优先搜索,首先是扩展根节点,接着扩展根节点的后继,然后再扩展它们的后继,依次类推。一般来讲,在下一层的任何节点扩展之前搜索树上本层深度的所有节点都已经扩展过。二。代价一致搜索,对一条路径的步数并不关心,而只关心所经步骤总的耗散,扩展的是路径 消耗最低的节点n.三。深度优先原创 2008-03-06 11:51:00 · 4600 阅读 · 0 评论 -
Lucene RAMDirectory 慎用
今天一哥们在做一个程序的时候使用了Lucene做全文检索工具,但是遇到了一个问题:首先就是检索速度非常的慢,而且只要连续检索三四次,程序马上就荡掉。通过日志发现是在CharacterEncodingFilter处报的错,没有办法只能去看filter的源代码。filter的程序很简单,只是做了request,response的编码,问题不可能出在这里啊!但是日志显示的错误信息就是从这个filter产转载 2008-02-11 18:01:00 · 5502 阅读 · 0 评论 -
Google排名优化-面向搜索引擎的网站设计
内容摘要:目前中文网站在整个互联网中的影响还比较小,这主要是由于中文网站总体的水平(技术上,内容上)都还相对落后造成的,最主要的表现有: 行业知识:不知道搜索引擎对吸引的新用户的重要性,在搜索引擎排名服务中追求“傻瓜相关”,购买一些其实没有太多实际意义的行业关键词。其实能够用户输入的关键词越多,其目标性越强,这样的客户价值越高。用户能够直接定位到产品具体内容页比到网站首页有价转载 2008-02-12 16:52:00 · 2013 阅读 · 0 评论 -
如何做好一个垂直搜索引擎
本文先引用几句话: “确解用户之意,切返用户之需。” “门户网站都想着是怎样省钱,而不是怎样花钱来买技术。” “搜索引擎不是人人都能做的领域,进入的门槛比较高。” “只是优秀还不够,最好的方式是将一件事情做到极致。”(google十大真理) “做搜索引擎需要专注” “对于一项排到第四的业务,门户很难做到专注。” “用户无法描述道他要找什么,除非让他看到想找的东西转载 2008-02-12 16:56:00 · 2146 阅读 · 1 评论 -
lucene笔记(一)
Searcher类的方法 public final Hits search(Query query) throws IOException { return search(query, (Filter)null); }发现原来是调用另一个重载的search类哦 public Hits search(Query query, Filter filter) throws IOExcep原创 2008-02-13 16:38:00 · 2036 阅读 · 0 评论 -
lucene笔记十 :关于高亮显示和显示部分原始文件的原则
高亮显示查询项有一个能使搜索引擎变得更友好的办法,那就是向你的用户提供一些搜索命中结果的上下文,而且更为重要的 是这样做是非常有用 的。最好的例子就是本系统用户在查找天气Web服务时的搜索结果。如下图1所示,每个命中结果包括了匹配文档的三行左右的内容,并且将查询项高亮显示出 来。通常,我们只需要对搜索项 上下文内容浏览一眼就足以 了解该结果是否值得我们深入地进行研究。图4.1 高亮显示查询项Hig转载 2008-02-13 17:25:00 · 3523 阅读 · 0 评论 -
Lucene 2.3 中文分词
在作词时发现JE不是很好用,象美白,祛斑,这些词根本搜索不出来,找不到更好的分词库,一元法又很耗CPU所以决定用二分法。在lucene 2.0+heritrix一书中提到 ChineseAnalyzer中用的是二分切词法,- -试验半天才发现根本不是那么回事,真正的二分切词法是CJKAnalyzer。尽信书不如无书,是句真理啊。原创 2008-02-21 15:04:00 · 1720 阅读 · 0 评论