
搜索引擎
文章平均质量分 82
foamflower
紫色魅影——翠菊:一年的生命,短暂的相遇;花开花落,缘聚缘散;正因这短暂,更让人珍惜!
有的注定没有选择的权力,唯有面对;重新认识,update 自己。。。
展开
-
Did You Mean: Lucene?-- Tom White
All modern search engines attempt to detect and correct spelling errors in users' search queries. Google, for example, was one of the first to offer such a facility, and today we barely notice when we are asked "Did you mean x?" after a slip on the keyboar转载 2010-08-30 20:24:00 · 1907 阅读 · 0 评论 -
利用bobo-browse 实现lucene的分组统计功能
转载出处:http://blog.youkuaiyun.com/strayly/archive/2009/08/08/4424889.aspx bobo-browse 是一用java写的lucene扩展组件,通过它可以很方便在lucene上实现分组统计功能。可以从http://code.google.com/p/bobo-browse/上下载和查看相关文档。下面介绍如何使用:第一步:设置相原创 2009-10-01 15:22:00 · 2572 阅读 · 3 评论 -
Tika解析非结构文档处理过程的简单分析
<br />转自:http://flym.iteye.com/blog/723430<br /> http://flym.iteye.com/blog/723558<br /> 前缀时间在使用Jackrabbit作非结构化内容的存取,当问到当存取一个word文档时,jackrabbit能不能对word文档里面的内容作全文检索呢。回去查了一下相关的文档,是可以的,而且用的是一个叫Tika的工具。<br /> Tika原先是一个Lucene的子项目,即对内容作元数据抽取用。更多的时转载 2011-05-31 10:01:00 · 2303 阅读 · 1 评论 -
org.apache.solr.common.SolrException: No such core: core0
<br />删除掉E:/Java Projects/fulltextsearch/WebRoot/WEB-INF/solr/multicore/data0/index下所有索引相关的文件之后,再次运行程序报:<br />2011-5-20 15:17:01 org.apache.solr.common.SolrException log<br />严重: java.lang.RuntimeException: java.io.FileNotFoundException: no segments* file原创 2011-05-20 15:28:00 · 7720 阅读 · 0 评论 -
Java企业搜索平台:起点R3(Rivulet ES) V5.0 使用简介
最近接到的任务是搜索平台模块需求研究,网上搜到佛山一家专做企业搜索的公司开源的一个工程R3。关于起点R3企业搜索的相关介绍如下: 起点R3企业级搜索引擎是起点软件提供的企业搜索解决方案,支持企业环境下的数据访问控制(ACL),能够通过定义用户数据访问权限来控制检索数据的安全。 R3是一个强大的,高性能的JAVA企业级搜索引擎产品,R3构建于Solr和Lucene之上,集成了POI、PDFBox和Apache Tika等第三方开源项目,在R3企业级搜索平台上,你可以搜索出你企业所有相原创 2011-03-27 14:36:00 · 4450 阅读 · 17 评论 -
tesseract-ocr识别中文扫描图片实例讲解
本文参考http://blog.youkuaiyun.com/zhoushuyan/archive/2010/10/18/5948289.aspx#1567946实现,在这里感谢该文章的作者。当我浏览http://code.google.com/p/tesseract-ocr并下载了几个文件下来之后顿时感到一头雾水,不知该如何下手。网上看到有人在linux操作系统下的实现, 如: 但却很少看到在windows下的相关文章介绍。 接下来我将一步步讲述如何采用tesseract-ocr识别含有中文的图片。1、下载tess原创 2010-12-31 17:32:00 · 43788 阅读 · 52 评论 -
AspriseOCR图像智能字符识别技术_遗憾的是不支持中文
<br /> 今天遇到*.tif文件没有实现抽词,网上搜了一下找到下面一篇文章,由于电脑上装的是EditPlus 3 而没装UltraEdit工具所以没有自己动手去破解,下载作者提供的连接发现并没有破解,依然会弹出购买提示窗口。<br /> 还有一点很遗憾的是其不支持中文。<br /> <br />以下内容转自:http://jacki6.javaeye.com/blog/787749<br /> <br />今天试着想解析验证码的图片,搞了半天,搞不定 。在网上搜了下,找了个第三方插件原创 2010-12-31 11:35:00 · 7294 阅读 · 0 评论 -
自己理解三叉树TernarySearchTrie
花了差不多一天半的时间终于把一颗三叉树看完了,不过对于里面还有点疑惑,下面在代码里注释上了自己的理解,里面还存在一些疑问,欢迎理解的朋友们指出其中的错误,以及解答里面的疑问。package org.apache.spell;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileReader;import原创 2010-12-04 17:15:00 · 5511 阅读 · 0 评论 -
DataImportHandler之三
Extending the tool with APIs<br />我们所展现的例子确实没有多大价值,单靠配置xml文件就满足所有的需求是不可能的。所以我们提供了一些抽象类,可以通过这些方法来提高功能。<br /> Transformer<br />每一条从数据库中取得的数据能够被直接处理掉,或者通过它创建一个全新的域,它设置能够返回多行数据。配置文件必须像下面那样设置。<entity name="foo" transformer="com.foo.Foo" ... /><br /> 注意-- trasfo转载 2010-09-20 21:52:00 · 2101 阅读 · 0 评论 -
Solr DataImportHandler 之二 XML/http导入
<br />XML/HTTP Datasource使用指南 <br />DataImportHandler 能够帮我们为基于HTTP的数据源建立索引. 目前支持REST/XML APIs 和RSS/ATOM Feeds.配置HttpDataSource<br />HttpDataSource在dataconfig.xml中的配置看起来应该像这样: <dataSource type="HttpDataSource" baseUrl="http://host:port/" encoding="UTF-8" c转载 2010-09-20 21:40:00 · 1214 阅读 · 0 评论 -
Solr DataImportHandler 之一 关系数据库批量和增量导数据
Description: 大多数的应用程序将数据存储在关系数据库、xml文件中。对这样的数据进行搜索是很常见的应用。所谓的DataImportHandler提供一种可配置的方式向solr导入数据,可以一次全部导入,也可以增量导入。 概览 目标 能够读取关系数据库中的数据。 通过可配置的方式,能够将数据库中多列、多表的数据生成solr文档 能够通过solr文档更新solr 提供 通过配置文件就能够导入所有数据的能力 能够发现并处理由转载 2010-09-20 21:37:00 · 5886 阅读 · 0 评论 -
Bobo Browse-分组统计后如何按指定的方式排序返回
简介当通过指定的facets对文档进行统计后按指定的排序方式返回。默认可指定的排序方式 Bobo Browse 的API中提供了2种默认的排序方式:按颜色统计的例子:根据值升序排序: 程序中的代码设置如下: faceSpec.setOrderBy(FacetSortSpec.OrderValueAsc); 输出结果如下:blue (2)green (19)red (21)yellow (20)根据结果数降序排序: 程序中的代码设置如下: faceSpec原创 2010-07-17 23:50:00 · 1060 阅读 · 0 评论