为什么ES不适合做数据存储

最新推荐文章于 2025-11-05 20:04:11 发布

原创最新推荐文章于 2025-11-05 20:04:11 发布 · 5.3w 阅读

53 ·

CC 4.0 BY-SA版权

文章标签：

#数据存储 #搜索引擎 #ES

大数据专栏收录该内容

2 篇文章

订阅专栏

文章探讨了为何ES不适合用作数据存储，主要原因是mapping不可更改、无法实现多对多关联、缺乏用户验证和权限控制，以及初期shards数量不易确定。尽管ES在检索和统计上有优势，但其设计目的与数据存储需求不符，不适用于未来需求变化大的场景。

前段时间公司想尝试用ES来存一部分数据，以此缓解数据增长带来的对数据库的压力。ES的介绍很多地方都有，就不再写了。在研究了一段时间后，发现ES不适合做为数据存储使用，理由如下：

mapping不可改，不能改index属性。ES中以定义的mapping不能修改名字和属性，无法修改名字勉强还能接受，但无法修改属性。官方文档中介绍了几种修改mapping的方法。一个是新建一个字段，程序中所有地方修改名字，这对于复杂的项目容易出错，而且无法保留原来的数据；另一个是利用alias创建一个新的索引，但是所有数据需要重新导入，这需要很长时间，操作性不强。
无法多对多。ES中提供3种关联关系：Field collapsing（严格来说不是关联），Nested object，Parent-child。前两种都是直接将一个mapping声明在另一个mapping中，第三种关联是在创建子文档是指明他的父文档，但是一个子文档只能有一个父文档，因此也不能实现多对多的关联。其实如果理解了ES的目的是提升检索效率，就不难理解为什么没有多对多关联了，在关系数据库里这就是个效率瓶颈。
没有用户验证和权限控制。ES本身的访问权限可以通过nginx进行控制，但是同一个ES中不同索引间目前是没有权限控制的。
从ES设计的初衷看，为了检索，为了统计。这个从字段的store属性中可以看出来，查看ES手册（https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-store.html）可以发现，默认情况下字段的原始值是不会被保存的，这跟数据存储是南辕北辙了。
项目开始时不好确定shards数量。少了以后扩展不方便，多了一开始影响性能。这个可以通过将type命名为doctype-yyyymmdd来解决，每天都生成新的一个或多个shard，但是注意在搜索时需要在doctype-*中搜索。
ES非常适合特定的需求，但不适合用于数据存储。ES索引速度快，扩展方便，性能优异，但在功能上不适合作为数据库使用。数据存储的目的是为了以后能方便的使用，不仅是针对当前的需求，也要为未来可能出现的需求做准备。由于ES有以上几点问题，无法适应需求变化。

ES适合的场景

检索。ES本身作为一个搜索引擎，用来处理检索的任务再合适不过。你可以在线上项目中直接将内容写入ES以提供检索服务，也可以把以往的数据导入ES以处理特定的需求。关于ES和Solr的比较以后有时间的话会写一篇
统计。ES的统计也是基于检索功能的，聚合功能使得统计结果处理起来非常方便。如果你只需要统计而不用检索，可能有其他工具更适合你，比如Spark SQL。

6 条评论

请叫我Oscar 2022.04.13
博主总结得很到位，赞一个。但是对于第4点我有异议，“默认情况下字段的原始值是不会被保存的”。博主给出这个链接（https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-store.html），这个链接是关于ES索引的store属性，store属性是来确定是否保存原始数据在磁盘，通过store默认为否，来证明ES默认不会保存原始数据。但是除了索引的store属性，ES索引中还有一个_source属性，也是存储原始数据的，并且默认情况下是保存原始数据的。完整的介绍可以看下这个博客https://blog.youkuaiyun.com/weixin_44583135/article/details/121169367

Hello 典 2021.09.19
就你这还发帖子，好好了解一下es的update_by_query更新mappings，以及ES自带的内部版本控制和外部版本控制机制来保证数据一致性吧。

UniquKin 2020.12.05
还是不懂,为了方便搜索,其实大多数时候所有存在关系数据库的数据都会在es里面存一份,这样其实数据完全就是两份,搜了es就能拿到所有数据了,存两遍也会造成数据不一致的问题...
- 刘增龙回复UniquKin 2021.05.07
  无事务不具备ACID的特性（大概率会出现脏数据的问题）非关系型数据库无法join操作 mapping类型无法修改