LSM Tree是一种用于高写入吞吐量的数据库存储引擎,广泛应用于现代分布式数据库系统。其核心思想是将写入操作缓存在内存中,并定期批量写入磁盘,减少磁盘 I/O 操作,提高写入性能。因其高效的写入性能和适应大规模数据的能力,成为现代数据密集型应用的关键技术之一。
LSM-tree主要由三部分组成:Memtable、SSTable和WAL(Write-Ahead Log)。数据首先写入内存中的Memtable,当Memtable满了,就会将其转化为只读的SSTable存储在磁盘上。同时,WAL 记录了每次写操作,以确保数据的可靠性。
WAL是一种非常重要的数据库技术,在很多数据库中我们都可以见到其身影,核心思想是将事务操作先记录到磁盘的日志文件中,然后在批量写入物理存储,我一直觉得,LSM-tree中连续批量写入数据到SSTable的思想,本身就跟WAL的思想有很相似的地方。

"The log-structured merge-tree (LSM-tree)" by Patrick O'Neil是LSM Tree的开创性论文,介绍了LSM Tree的基本结构和设计理念。
论文首先将LSM树和数据库中传统使用的B树索引结构进行的对比,LSM树大大减少了磁盘臂的移动,从而提高了数据写入的成本性能,其最大优势在于写入性能。通过批量写入和合并操作,它能够高效地处理大量写请求,适用于写密集型应用场景。
传统的B树就像是将每本书都按顺序放到书架上,这样查找起来很方便,但每次放书都要找到合适的位置,费时费力。而 LSM树则不同,它更像是先把书随手放到一个临时箱子里(Memtable),等箱子满了再一次性分类整理到书架上(SSTable)。
LSM树的核心组建和运作机制
LSM树由两个或多个类似树形的数据结构组

最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



