
Lucene/Solr
文章平均质量分 59
u013063153
这个作者很懒,什么都没留下…
展开
-
搜索引擎选择: Elasticsearch与Solr
原文:http://i.zhcy.tk/blog/elasticsearchyu-solr/搜索引擎选型调研文档Elasticsearch简介*Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。Elasticsearc转载 2017-06-05 22:27:35 · 355 阅读 · 0 评论 -
LUNCENE/Solr入门示例
lucene是什么?是一个全文搜索框架,而不是应用产品。因此它并不像baidu和google那么拿来就能用,它是提供了一种工具让你能实现这些产品。倒排索引:不是由记录来确定属性值,而是由属性值来确定记录的位置。// 建立索引public class CreateIndex {public static final String indexDir = "G:/in原创 2017-06-07 21:23:54 · 663 阅读 · 0 评论 -
中文分词器性能比较
原文:http://www.cnblogs.com/wgp13x/p/3748764.html摘要:本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。 具体的Solr使用方法假设读者已有了基础,关于So转载 2017-06-07 21:47:48 · 14310 阅读 · 2 评论 -
11大Java开源中文分词器的使用方法和分词效果对比
原文:https://my.oschina.net/apdplat/blog/412921本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器转载 2017-06-07 21:51:39 · 1469 阅读 · 1 评论 -
用jericho jar包来解析HTML页面示例
import net.htmlparser.jericho.Element;import net.htmlparser.jericho.HTMLElementName;import net.htmlparser.jericho.Source;import java.io.File;import java.io.IOException;public class H原创 2017-06-07 22:20:11 · 964 阅读 · 0 评论 -
wget爬数据命令
wget -o /tmp/wget.log -P /root/data --no-parent --no-verbose -m -D www.baidu.com -N --convert-links --random-wait -A html,HTML http://www.baidu.com原创 2017-06-07 21:37:24 · 954 阅读 · 0 评论 -
Lucene全文检索的基本原理
原文:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html一、总论根据http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全转载 2017-06-30 15:36:27 · 396 阅读 · 0 评论