LSMT 存储引擎浅析

LSMT存储引擎：顺序写优化与现代数据库选择

最新推荐文章于 2025-02-07 02:19:19 发布

原创最新推荐文章于 2025-02-07 02:19:19 发布 · 800 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据库

LSMT（Log-Structured Merge-Tree）存储引擎通过Append-only Write和Compact策略提供高效索引。从历史发展来看，LSMT在2000年后成为Google BigTable、HBase和Cassandra等数据库的首选，取代了早期的B-Tree。其优势在于顺序写操作的优化，适应机械硬盘和SSD时代的需求。LSMT的复杂度分析涉及T、L、B、M、N和S等参数，影响读写放大和空间利用。Level与Tier Compaction策略分别解决不同的性能权衡。总结来说，LSMT存储引擎在现代计算机体系中扮演关键角色，尤其适合支持ACID特性的单机和分布式数据库。

LSMT概述

简单来说，就是通过Append-only Write+择机Compact来维护结构的索引树。

LSMT的历史

LSMT是Log-Structured Merge-Tree的缩写，由Patrick O 'Neil etc.在1996年的论文，The Log-Structured Merge-Tree(LSM-Tree),提出。
相较而言，B-Tree出现就早得多了，在197O年由Bayer,R.;McCreight,E.提出。
早期的数据库系统一般都采用B-Tree家族作为索引，例如MySQL。2000年后诞生的数据库大多采用LSMT索引，例如Google BigTable,HBase,Canssandra等。

存储引擎是什么？

ACD是什么/存储引擎哪些组件保障了这些特性？
- Atomicity Write-Ahead Log(WAL)Redo Log
- Consistency(Correctness) 依赖于数据库整体
- Isolation Snapshot 2PL(Phase Lock)
- Durability Flusher遵循Sync语意
除了保障ACD以外，存储引擎还要负责：
- 屏蔽细节提供更好的抽象
- 提供统计信息与Predicate Push Down能力
存储引擎不掌控IO细节，让操作系统接管，例如使用map, 会有如下问题：
- 落盘时机不确定造成的事务不安全
- IO Stall
- 错误处理繁琐
- 无法完全发挥硬件性能