Elasticsearch__Analyzer

最新推荐文章于 2024-07-31 07:57:22 发布

路飞Luffy

最新推荐文章于 2024-07-31 07:57:22 发布

阅读量223

点赞数

分类专栏： Elasticsearch 读书笔记

本文链接：https://blog.youkuaiyun.com/hot_summery/article/details/100525534

版权

Elasticsearch 同时被 2 个专栏收录

24 篇文章

订阅专栏

读书笔记

18 篇文章

订阅专栏

分词器的组成：

Character Filter、Tokenizer、Token Filter

1. Character Filter 分成

HTML strip 去除html标签； Mapping 字符串替换； Pattern replace 正则匹配替换

2. Tokenizer 分成

whitespace/standard/uax_url_email/pattern/keyword/path hierarchy 路径分词器

3. Token Filter 分成

Lowercase/stop/synonym(近义词)

POST _analyze
{
"tokenizer": "keyword",
"char_filter": ["html_strip"],
"text": "<b>hello world</b>"
}

POST _analyze
{
"tokenizer": "standard",
"char_filter": [
{
"type":"mapping",
"mappings":[":) => happy",":( => sad"]
}
],
"text": ["I am felling :)","Feeling :( today"]
}

POST _analyze
{
"tokenizer": "standard",
"char_filter": [
{
"type":"pattern_replace",
"pattern":"http://(.*)",
"replacement":"$1"
}
],
"text": "http://www.elasti.co"
}

POST _analyze
{
"tokenizer": "path_hierarchy",
"text":"/user/ymruan/a/b"
}

PUT my_index
{
"settings":{
"analysis":{
"analyzer":{
"my_custom_analyzer":{
"type":"custom",
"char_filter":[
"mamj_char_filter"
],
"tokenizer":"mamj_tokenizer",
"filter":[
"lowercase",
"english_stop"
]
}
},
"tokenizer":{
"mamj_tokenizer":{
"type":"pattern",
"pattern":"[.,!?]"
}
},
"char_filter":{
"mamj_char_filter":{
"type":"mapping",
"mappings":[":) => happy",":( => sad"]
}
},
"filter":{
"english_stop":{
"type":"stop",
"stopwords":"_english_"
}
}
}
}
}