Miracle_Lin01-优快云博客

原创 Elastic Search个人学习(4) 分词器 2 tokenizer与token filter

Tokenizer与Token FilterTokenizer是自定义分词语，他将原始文本按照一定规则切分为单词，自带的有:Standard 将单词转换为小写, 并去除标点符号Simple 根据非字母字符来分割文本信息，然后转为小写，该分词器会去掉数字类型的字符Whitespace 以空格来分割Stop 在Simple的基础上增加了去掉英文中的常用单词，比如 The, aKeyword 把整个输入作为一个单独词汇单元，不进行分词Pattern 通过正则表达式分

2020-10-16 14:37:12 656 1

原创 Elastic Search个人学习(4) 分词器 1 char_filter

Elastic Search分词器Analysis与Analyser:Analysis是将全文分词的过程， Analysis是通过Analyser实现的。Analyser由三部分组成: Character Filters, Tokenizers, Token Filters。(1) Character filter:对要分词的文本进行预处理，比如去掉html标签, 替换字符。自带的有:“html_strip” 去除html标签“mapping” 进行字符替换,“pattern repla

2020-10-15 20:06:59 689

原创 Elastic Search个人学习(3) 倒排索引

Elastic Search倒排索引倒排索引分为两块：单词词典(Term Dictionary):单词词典记录了所有分词后的单词与单词到倒排列表的关联关系，采用B+树的模型搭建倒排列表例如两个文档梦幻西游真好玩，好玩的游戏哪些。这两句话经历一定得分词后变成梦幻西游真好玩和好玩游戏哪些。以单词‘好玩’为例文档Id 文档内容分词结果1 梦幻西游真好玩梦幻西游真好玩2 好玩的游戏有哪些

2020-10-15 16:34:33 263

原创 Elastic Search个人学习(2) 基本操作

Elastic Search基本概念文档 -> document -> 类似于Mysql中的一条数据索引-> index ->类似于Mysql中的一张表 (ES6过后索引类似于Mysql的一张表，原先类比于一个database)对Elastic Search的操作是基于Restful标准, 增删改查对应的Method为POST DELETE PUT GET查询API:/GET /{indexName}/{typeName}/id如 /GET /testindex/doc

2020-10-15 11:32:15 278

原创 Elastic Search个人学习(1) 环境搭建

Elastic Search环境搭建：Elastic Search下载官网链接:https://www.elastic.co/downloads/elasticsearchKibana下载官网链接:https://www.elastic.co/downloads/kibanawindows环境下从官网下载下来的Elastic Search的tar包解压后运行bin\elasticsearch.bat启动elastic search,命令行提示Started后,Elastic Search启动成功

2020-10-15 09:47:38 214

原创踩坑两次了#24 java Long类型的相等

踩坑两次了项目中有个根据index判断是否相等的问题， debug竟然发现141 == 141的结果是false。研究后发现是Long类型的问题。Long中有一个静态的内部类LongCache，专门用于缓存-128至127之间的值，一共256个元素。如果值在[-128, 127]之间，会放在缓存里面，而超过这个范围就要new一个新的对象，也就是说==不能判断对象是否相等。当然，如果值是在[...

2019-12-03 13:35:28 206

Miracle_Lin01的博客

原创 Elastic Search个人学习(4) 分词器 2 tokenizer与token filter

原创 Elastic Search个人学习(4) 分词器 1 char_filter

原创 Elastic Search个人学习(3) 倒排索引

原创 Elastic Search个人学习(2) 基本操作

原创 Elastic Search个人学习(1) 环境搭建

原创踩坑两次了#24 java Long类型的相等

空空如也

空空如也

原创 Elastic Search个人学习(4) 分词器 2 tokenizer与token filter

原创 Elastic Search个人学习(4) 分词器 1 char_filter

原创 Elastic Search个人学习(3) 倒排索引

原创 Elastic Search个人学习(2) 基本操作

原创 Elastic Search个人学习(1) 环境搭建

原创 踩坑两次了#24 java Long类型的相等

空空如也

空空如也

原创踩坑两次了#24 java Long类型的相等