Elasticsearch数据流(Data Streams)全面解析-优快云博客

Elasticsearch数据流(Data Streams)全面解析

数据流(Data Stream)是Elasticsearch中一种专门用于处理时序数据的抽象概念，它允许用户将只追加(append-only)的时序数据存储在多个索引中，同时对外提供单一命名资源进行访问。数据流特别适合存储日志、事件、指标等持续生成的数据。

与传统索引管理方式相比，数据流具有以下核心优势：

判断是否应该使用数据流，需要考虑数据格式和预期交互方式。适合使用数据流的场景通常符合以下特征：

对于大多数时序数据用例，数据流都是理想选择。但如果需要频繁使用相同_id更新文档(采用"最后写入获胜"策略)，则可能需要考虑使用带有写入索引的索引别名。

数据流由一个或多个自动生成的隐藏索引组成，这些索引被称为"底层索引"。每个数据流都需要一个匹配的索引模板，该模板包含用于配置底层索引的映射和设置。

关键特性：

读取请求：当向数据流发送读取请求时，请求会被路由到所有底层索引。

写入索引：最新创建的底层索引作为数据流的写入索引，所有新文档都只添加到该索引中。不能向其他底层索引添加新文档，也不能对写入索引执行可能阻碍索引的操作(如克隆、删除、收缩或拆分)。

滚动更新会创建一个新的底层索引，该索引将成为数据流的新写入索引。推荐使用ILM(索引生命周期管理)在写入索引达到指定大小或年龄时自动滚动数据流。

每个数据流都会跟踪其代次信息(从000001开始的6位零填充整数)。底层索引的命名遵循以下约定：

.ds-<数据流名称>-<yyyy.MM.dd>-<代次>

其中<yyyy.MM.dd>是底层索引的创建日期。代次较高的索引包含较新的数据。需要注意的是，某些操作(如收缩或恢复)可能会更改底层索引名称，但不会将其从数据流中移除。

数据流主要针对很少更新现有数据的用例设计：

如果应用场景需要频繁更新具有相同_id的文档，建议考虑使用带有写入索引的索引别名方案。

通过合理使用数据流功能，可以显著简化时序数据的管理工作，提高系统可靠性和运维效率。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考