
Solr
sc736031305
这个作者很懒,什么都没留下…
展开
-
跟益达学Solr5之使用Jetty部署Solr
开始之前,你首先需要了解Solr是什么,以下是百度百科里对Solr的解释: Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。 文档通过Http利用XML 加到一个搜...2015-05-01 17:23:52 · 313 阅读 · 0 评论 -
跟益达学Solr5之拼音分词
应群友强烈要求,特此更新此篇博客。其实在我的Lucene5系列博客里我已经介绍了拼音分词,遗憾的是,大家不能举一反三,好吧,还是我亲自上马吧! 首先我们来看看我当初使用Lucene5是如何实现的, 在Solr5中,我们只需要为IKTokenizer扩展一个IKTokenizerFactory,为PinyinTokenFilter扩展一个PinyinTokenF...2015-06-27 13:15:00 · 266 阅读 · 0 评论 -
跟益达学Solr5之使用MMSeg4J分词器
要想在Sor中使用MMSeg4J分词器,首先你需要自定义一个TokenizerFactory实现类,虽然直接配置Analyzer类也可以,但那样无法配置Analyzer构造函数的参数,不够灵活,存在弊端,所以我一直都是以扩展TokenizerFactory的方式来讲解类似MMSeg4J这样的中文分词器在Solr中的使用。 MMSegTokenizerFactory类...2015-06-22 17:40:09 · 191 阅读 · 0 评论 -
跟益达学Solr5之使用Ansj分词器
OK,直接开门见山,不绕弯子啦!基于上篇博客,我们知道了在Solr中配置分词器有两种方式,一种是直接配置分词器类,比如:<fieldType name="text_ik" class="solr.TextField"> <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer" ...2015-06-19 13:40:07 · 248 阅读 · 0 评论 -
跟益达学Solr5之使用IK分词器
在Solr中该如何使用IK分词器呢,这是小伙伴们问的频率比较高的一个问题,今晚特此更新此篇博客。其实之前我在其他博客里已经使用了IK分词器,只是我没做详细说明。 在schema.xml配置中其实有很多关于分词器的配置示例,我从中摘录一段配置示例,比如:<fieldType name="text_general" class="solr.TextField...2015-06-17 23:59:25 · 220 阅读 · 0 评论 -
跟益达学Solr5之在Eclipse下编译Solr5源码
2015年6月7日,Solr已经更新到5.2.0,所以这里我以5.2.0版本为例,你使用Solr5.x都是类似的区别不大。开始之前,首先你需要去Solr官网去下载Solr5源码,如图: taz包其实是可以使用Winrar解压的,解压后如图: 我是解压到F:\javazipfile目录下,官方默认提供的源码包并不是一个标准的Eclipse Java Project,需要使用i...2015-06-10 15:43:35 · 180 阅读 · 0 评论 -
跟益达学Solr5之Facet一瞥
Facet属于Solr的高级查询部分,之所以在还没有讲解普通Query之前,就开始更新Facet查询,是因为看到很多小伙伴都在为Facet而困扰,其实根本原因还是对Facet不理解。Facet英文单词本意是方面的意思,但在solr中Facet一般翻译为维度的意思,举个例子,学生可以按班级来分类,可以按性别来分类,可以身高来分类,可以按年龄来分类,可以按考试分数来分类,可以按兴趣爱好分...2015-06-04 21:50:02 · 191 阅读 · 0 评论 -
跟益达学Solr5之批量索引JSON数据
假定你有这样一堆JSON数据, [ {"id":"1", "name":"Red Lobster", "city":"San Francisco, CA", "type":"Sit-down Chain", "state":"California", "tags&qu2015-05-31 11:28:13 · 187 阅读 · 0 评论 -
跟益达学Solr5之增量索引MySQL数据库表数据
Solr5中如何增量索引MySQL数据库表中的数据,这个问题之前有某个童鞋问过我,今天午休时间就腾空更新篇博客,希望能帮助到你们。 为了测试方便,我首先从京东网站弄了点测试数据,如图: 这里要声明下,我不是在给京东商城打广告哈,仅仅是随便找个网站弄点测试数据,这部分工作全是我无聊手动插入MySQL数据库中的,如图: 建表SQL以及测试数据,我待会儿会上传到底下...2015-05-29 14:00:10 · 150 阅读 · 0 评论 -
跟益达学Solr5之索引网络上远程文件
我们的文件有时候不在本地,可能是在网络上,这时候我们该如何对其进行索引呢?当然你可以先通过爬虫把它抓取下来保存到本地硬盘,然后通过上篇博客介绍的方式对其进行索引,其实Solr内置了URLDataSource,支持直接获取远程资源进行索引的,下面就详细介绍该如何配置实现。废话不多说,我直接贴相应的配置文件: solrconfig.xml配置文件基本没什么变化,依赖的jar请从上篇博...2015-05-27 20:51:27 · 317 阅读 · 0 评论 -
跟益达学Solr5之索引文件夹下所有文件
上篇我们学习了如何从PDF文件中提取文本进行索引,今天我们来学习如何对一个文件夹下所有文本文件进行索引。废话不多说,我直接贴相关配置: 首先依然是在solrconfig.xml配置文件中配置dataimport请求处理器,并指定data-config.xml配置文件加载路径:<requestHandler name="/dataimport" class...2015-05-27 19:26:56 · 285 阅读 · 0 评论 -
跟益达学Solr5之使用Tika从PDF中提取数据导入索引
开始此篇之前,我假定你已经学会了如何在Tomcat下部署Solr5啦。即启动Tomcat后你能看到Solr5的Web UI界面。OK,下面直接进入正题。 首先你需要在你的core根目录下新建一个lib目录来存放依赖的jar包,当然你也可以直接到依赖的jar包扔到Tomcat webapps目录下部署的solr程序的WEB-INF\lib目录下即如图: ...2015-05-26 23:22:58 · 626 阅读 · 0 评论 -
跟益达学Solr5之Schema.xml详解
schema.xml是用来定义索引数据中的域的,包括域名称,域类型,域是否索引,是否分词,是否存储,是否标准化即Norms,是否存储项向量等等。 schema.xml配置文件的根元素就是schema,有个name属性,name属性值可以随便配,根元素没什么好说的,schema元素下主要有两个标签元素即field和fieldType,field表示域,用来定义域,fie...2015-05-21 21:36:17 · 186 阅读 · 0 评论 -
跟益达学Solr5之solrconfig.xml配置详解
solrconfig.xml配置文件中包含了很多solr自身配置相关的参数,solrconfig.xml配置文件示例可以从solr的解压目录下找到,如图: 用文本编辑软件打开solrconfig.xml配置,你将会看到以下配置内容:<?xml version="1.0" encoding="UTF-8" ?><!-- Licensed to t...2015-05-16 12:16:19 · 553 阅读 · 0 评论 -
跟益达学Solr5之core.properties配置详解
学习Solr之前,我想对于初学Solr的小伙伴们来说, Solr的core概念是最令人头疼的,到底该怎么理解Solr中的core呢?以下是我从Solr的官方文档中摘下来的一段文字说明:In Solr, the term core is used to refer to a single index and associated transaction log and configurati...2015-05-14 22:57:23 · 355 阅读 · 0 评论 -
跟益达学Solr5之从MySQL数据库导入数据并索引
最近有小伙伴跟我抱怨说:益达,最近博客更新的有点慢呐。其实不是我变懒了,我是不想因为数量而降低了博客的质量,我需要抱着对你们负责的态度来写每一篇博客,绝不能含糊啊,所以,还望大家多多包涵呐。今天群里一朋友问我Solr如何对数据库表里的数据进行索引,为此,今晚特地更新此篇博客,这里我以Solr当前最新版本5.1.0,数据库MySQL为例进行讲解说明。首先我们需要准备一张测试...2015-05-12 22:45:35 · 215 阅读 · 0 评论 -
跟益达学Solr5之使用Tomcat部署Solr
最近忙着面试以及生活琐事把时间都霸占了,博客拖了4天没更新了,让各位久等了,望多多包涵!不过还好,工作已经敲定了,终于可以安心的学习Solr并分享我学习的点点滴滴啦! 上回我们在Jetty下部署了,不过我想小伙伴们使用Tomcat还是要多点,所以这回我们就来试试把Solr5部署到Tomcat下,这里以Win7 64bit Tomcat7.0.55为例,lin...2015-05-07 13:18:09 · 229 阅读 · 0 评论 -
跟益达学Solr5之玩转post.jar
为了方便用户往solr中添加索引,Solr为用户提供了一个post.jar工具,用户只需要在命令行下运行post.jar并传入一些参数就可以完成索引的增删改操作,对,它仅仅是一个供用户进行Solr测试的工具而已,有关post.jar的使用说明如下:SimplePostTool version 5.1.0Usage: java [SystemProperties] -ja...2015-05-02 18:06:50 · 531 阅读 · 0 评论 -
跟益达学Solr5之拼音分词[改进版]
之前一篇介绍过如何自定义实现拼音分词器,不过当初只考虑了全拼这种情况,且有些BUG,趁着抗日胜利70周年阅兵3天假期有时间,又把当初的代码拿起来进行了改进,改进点包括支持全拼,简拼以及全拼+简拼,支持汉字数字是否NGram处理的可配置,支持NGram长度范围的可配置等,特此更新此篇进行分享!如有不妥之处,还望不吝指正! 废话不多说,直接上代码:import jav...2015-09-04 23:15:27 · 236 阅读 · 0 评论