
Lucene(神界篇)
三劫散仙
唯有学习,可以解忧
展开
-
如何将Lucene索引写入Hadoop?
[b][color=red][size=x-large]转载请务必注明,原创地址,谢谢配合! [url]http://qindongliang1922.iteye.com/blog/2088076[/url][/size][/color][/b][b][color=green][size=medium]Hadoop是Lucene的子项目,现在发展如火如荼,如何利用Hadoop的分布式处...2014-07-03 19:16:56 · 541 阅读 · 0 评论 -
Lucene4.3进阶开发之纯阳无极(十九)
[b][color=red][size=x-large]原创不易,转载请务必注明,原创地址,谢谢配合! [url]http://qindongliang.iteye.com/blog/2164583[/url][/size][/color][/b][b][color=green][size=large]Lucene内置很多的分词器工具包,几乎涵盖了全球所有的国家和地区,最近散仙,在搞多...2014-12-09 16:37:59 · 210 阅读 · 0 评论 -
Lucene/Solr/ElasticSearch搜索问题案例分析
[img]http://dl2.iteye.com/upload/attachment/0118/2222/133a7e24-46e8-3060-9018-bfe45e2381cd.jpg[/img][size=medium]最近收集的两个搜索的case,如下:案例一:使用 A关键词:“中国诚通控股公司”搜索,不能搜到 B结果“中国诚通控股集团有限公司”从关键词...2016-06-23 18:08:28 · 212 阅读 · 0 评论 -
lucene和solr的分词器词库如何从数据库加载?
[b][color=red][size=x-large]原创不易,转载请务必注明,原创地址,谢谢配合! [url]http://qindongliang.iteye.com/blog/2142783[/url][/size][/color][/b]对于中文的搜索来说,词库系统,也是一个比较重要的模块,本篇散仙以IK分词器为例子,介绍了如何让分词器从数据库或缓存系统中集中式加载词库?...2014-10-15 15:21:00 · 291 阅读 · 0 评论 -
Lucene+Solr+ElasticSearch查询匹配优化
[size=medium]当我们在处理搜索业务时候,需求往往是灵活多变的,有时候我们需要精确匹配,有时候我们又需要全文检索,而有时候,我们又想匹配度高而且还能全文检索,这似乎是精确匹配和模糊匹配一个妥协的策略,没错这就是搜索引擎出现的目的,以往的数据库是没法解决这种问题的,数据库只能回答有,没有,存在,不存在,并不能在有和没有之间做一个完美的妥协,比如说能把最匹配最相关的结果放在topN,仅靠...2016-06-01 19:37:24 · 308 阅读 · 0 评论 -
如何实现Solr自定义评分查询
[size=medium](一)背景介绍大多数时候我们使用lucene/solr/elasticsearch自带的评分查询都是没问题的,当然这也仅仅限于简单的业务或者对搜索排名不敏感的场景中,假设业务方要求有若干业务因子要干扰到排名,同时还不能放弃框架本身的文本相似度评分,那么应该怎么做呢? 这种场景尤其是在电商类的一些垂直搜索中体现比较明显,比如,新商品加分,口碑好的加分...2016-05-12 17:49:50 · 1013 阅读 · 0 评论 -
浅谈Lucene中的DocValues
[size=medium]前言:在Lucene4.x之后,出现一个重大的特性,就是索引支持DocValues,这对于广大的solr和elasticsearch用户,无疑来说是一个福音,这玩意的出现通过牺牲一定的磁盘空间带来的好处主要有两个:(1)节省内存(2)对排序,分组和一些聚合操作时能够大大提升性能下面来详细介绍下DocValue的原理和使用场景(一)什么是DocV...2016-05-10 19:12:44 · 546 阅读 · 1 评论 -
玩转大数据系列之Apache Pig如何与Apache Lucene集成(一)
[img]http://dl2.iteye.com/upload/attachment/0105/3491/7c7b3bef-0dda-3ac6-8cdb-1ecc1dd9c194.jpg[/img][b][color=green][size=large]在文章开始之前,我们还是简单来回顾下Pig的的前尘往事:1,Pig是什么?Pig最早是雅虎公司的一个基于Hadoop的并行处...2015-03-05 21:54:11 · 225 阅读 · 0 评论 -
使用MapReduce并行构建Lucene索引
[b][color=green][size=large]散仙前几篇博客上,已经写了单机程序使用使用hadoop的构建lucene索引,本篇呢,我们里看下如何使用MapReduce来构建索引,代码如下:[/size][/color][/b][code="java"]package com.mapreduceindex;import java.io.IOException;impo...2014-08-12 19:17:42 · 579 阅读 · 0 评论 -
如何将Lucene索引写入Hadoop2.x?
[b][color=red][size=x-large]转载请务必注明,原创地址,谢谢配合! [url]http://qindongliang1922.iteye.com/blog/2090121[/url][/size][/color][/b][b][color=olive][size=large]散仙,在上篇文章,已经写了如何将Lucene索引写入Hadoop1.x的HDFS系统,...2014-07-09 20:22:50 · 191 阅读 · 0 评论 -
Lucene暴走之巧用内存倒排索引高效识别垃圾数据
[size=medium]识别垃圾数据,在一些大数据项目中的ETL清洗时,非常常见,比如通过关键词(1)过滤垃圾邮件(2)识别yellow网站(3)筛选海量简历招聘信息(4)智能机器人问答测试........各个公司的业务规则都不一样,那么识别的算法和算法也不一样,这里提供一种思路,来高效快速的根据关键词规则识别垃圾数据。下面看下需求:业务定义一些主...原创 2016-02-01 17:07:09 · 229 阅读 · 0 评论