elasticsearch mapping和template解析(自动分词)！

原创

已于 2025-08-13 23:28:56 修改 · 1.3k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #大数据 #搜索引擎

于 2025-08-13 23:26:54 首次发布

一. 引文：

部署了ELK 用来分析nginx的log，新增需求：统计相关url(字段名url_path)访问次数最高的五个，通过Visualize创建走势图，发现自动对其进行了分词输出(如：/photo/pv/addPv被拆分成了photo,pv,addPV)。通过查询相关资料，明白了在创建索引，插入数据时，有一个template和mappings机制。

二. 概念：

template: 索引可使用预定义的模板进行创建,这个模板称作Index templates(索引模板)。模板设置包括settings和mappings，通过模式匹配的方式使得多个索引重用一个模板(如xxx* ,即:对xxx开头的index都匹配)。

mappings: 类似于静态语言中的数据类型：声明一个变量为int类型的变量，以后这个变量都只能存储int类型的数据。同样的，一个number类型的mapping字段只能存储number类型的数据。同语言的数据类型相比，mapping还有一些其他的含义，mapping不仅告诉ES一个field中是什么类型的值，它还告诉ES如何索引数据以及数据是否能被搜索到。一个mapping由一个或多个analyzer组成，一个analyzer又由一个或多个filter组成的。当ES索引文档的时候，它把字段中的内容传递给相应的analyzer，analyzer再传递给各自的filters。一个filter就是一个转换数据的方法，输入一个字符串，这个方法返回另一个字符串（如一个将字符串转为小写的方法）。一个analyzer由一组顺序排列的filter组成，执行分析的过程就是按顺序一个filter一个filter依次调用， ES存储和索引最后得到的结果。总结来说， mapping的作用就是执行一系列的指令将输入的数据转成可搜索的索引项。

三. 核心：

elasticsearch默认是字符串的类型的字段都会分词(也会带来性能及空间占用问题)的(也就是引文中url_path问题所在)。故，这种情况下，解决办法就是修改mapping的string类型改为不分词("index": "not_analyzed")

需要注意的一个问题就是如果index中已经有大量数据的情况下，修改了analyzer,还需要清理已存在的数据，重新灌/cha入才能生效(因为就算put了新的mapping,以前的数据也更正不过来，后进去的数据会跟随旧数据的存储类型) 。。。