- 博客(6)
- 收藏
- 关注
原创 Elastic Search个人学习(4) 分词器 2 tokenizer与token filter
Tokenizer与Token FilterTokenizer是自定义分词语,他将原始文本按照一定规则切分为单词,自带的有:Standard 将单词转换为小写, 并去除标点符号Simple 根据非字母字符来分割文本信息,然后转为小写,该分词器会去掉数字类型的字符Whitespace 以空格来分割Stop 在Simple的基础上增加了去掉英文中的常用单词,比如 The, aKeyword 把整个输入作为一个单独词汇单元,不进行分词Pattern 通过正则表达式分
2020-10-16 14:37:12
581
1
原创 Elastic Search个人学习(4) 分词器 1 char_filter
Elastic Search分词器Analysis与Analyser:Analysis是将全文分词的过程, Analysis是通过Analyser实现的。Analyser由三部分组成: Character Filters, Tokenizers, Token Filters。(1) Character filter:对要分词的文本进行预处理,比如去掉html标签, 替换字符。自带的有:“html_strip” 去除html标签“mapping” 进行字符替换,“pattern repla
2020-10-15 20:06:59
650
原创 Elastic Search个人学习(3) 倒排索引
Elastic Search倒排索引倒排索引分为两块:单词词典(Term Dictionary):单词词典记录了所有分词后的单词与单词到倒排列表的关联关系,采用B+树的模型搭建倒排列表例如两个文档 梦幻西游真好玩, 好玩的游戏哪些。这两句话经历一定得分词后变成梦幻西游 真 好玩和好玩 游戏 哪些。以单词‘好玩’为例文档Id 文档内容 分词结果1 梦幻西游真好玩 梦幻西游 真 好玩2 好玩的游戏有哪些
2020-10-15 16:34:33
240
原创 Elastic Search个人学习(2) 基本操作
Elastic Search基本概念文档 -> document -> 类似于Mysql中的一条数据索引-> index ->类似于Mysql中的一张表 (ES6过后索引类似于Mysql的一张表,原先类比于一个database)对Elastic Search的操作是基于Restful标准, 增删改查对应的Method为POST DELETE PUT GET查询API:/GET /{indexName}/{typeName}/id如 /GET /testindex/doc
2020-10-15 11:32:15
245
原创 Elastic Search个人学习(1) 环境搭建
Elastic Search环境搭建:Elastic Search下载官网链接:https://www.elastic.co/downloads/elasticsearchKibana下载官网链接:https://www.elastic.co/downloads/kibanawindows环境下从官网下载下来的Elastic Search的tar包解压后运行bin\elasticsearch.bat启动elastic search,命令行提示Started后,Elastic Search启动成功
2020-10-15 09:47:38
170
原创 踩坑两次了#24 java Long类型的相等
踩坑两次了项目中有个根据index判断是否相等的问题, debug竟然发现141 == 141的结果是false。 研究后发现是Long类型的问题。Long中有一个静态的内部类LongCache,专门用于缓存-128至127之间的值,一共256个元素。如果值在[-128, 127]之间,会放在缓存里面,而超过这个范围就要new一个新的对象,也就是说==不能判断对象是否相等。当然,如果值是在[...
2019-12-03 13:35:28
177
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人