行式与列式存储区别及应用场景_行存储和列存储的区别及各自的应用场景-优快云博客

这是一个关于数据库和数据仓库中非常核心的概念。下面我将详细解释行式存储和列式存储的区别，以及它们各自的应用场景。

最直观的理解方式就是看数据在磁盘上是如何组织的。

如何存储：按行或记录进行存储。将一整行数据（包括所有列的值）连续地存储在磁盘上。
类比：想象一个Excel表格，横向保存。保存完第一条记录的所有列，再保存第二条记录的所有列，以此类推。
- 磁盘块内容：[Row1: ID1, NameA, Age20, DeptX], [Row2: ID2, NameB, Age25, DeptY], [Row3: ID3, NameC, Age30, DeptZ]

如何存储：按列进行存储。将每一列的数据分别连续地存储在磁盘上。
类比：同样是那个Excel表格，但纵向保存。先把所有记录的ID存到一起，再把所有记录的Name存到一起，以此类推。
- 磁盘块内容：[Column_ID: ID1, ID2, ID3], [Column_Name: NameA, NameB, NameC], [Column_Age: 20, 25, 30], [Column_Dept: DeptX, DeptY, DeptZ]

基于不同的存储方式，两者在各方面表现出截然不同的特性。

特性	行式存储	列式存储
存储方式	按行存储，一行中所有列的数据紧挨在一起	按列存储，每列的数据单独存放且紧挨在一起
写入性能	高。写入（INSERT/UPDATE/DELETE）操作通常涉及单行所有列，一次性连续写入效率高。	低。写入一行数据需要写入多个列文件，磁盘寻址开销大。通常采用批量写入来优化。
读取性能	适合小查询、获取整行数据。例如 `SELECT * FROM table WHERE id = 123`，一次读取就能获取所有数据。	适合大查询、只读取部分列。例如 `SELECT SUM(salary) FROM employees`，只需读取一列的数据，I/O量极小，速度极快。
压缩效率	较低。因为一行中包含多种数据类型（整型、字符串、日期等），压缩算法难以高效利用数据模式。	极高。因为同一列的数据类型相同，数据模式相似（尤其是枚举型），可以使用针对性的压缩算法（如RLE游程编码、字典编码等），压缩比非常高。
索引依赖	严重依赖。如果没有索引，查询特定值需要全表扫描，性能很差。	依赖较低。数据按列存储本身就像一种“天然索引”，只扫描需要的列，性能已然很高。当然，也可以再建索引进一步优化。
典型应用	OLTP	OLAP
代表产品	MySQL, PostgreSQL, Oracle, SQL Server	Apache HBase, Google BigQuery, Amazon Redshift, Apache Cassandra

行式存储非常适合需要频繁进行增、删、改、查操作的事务型业务系统。这些操作通常以单条或少量记录为单位。

核心特点：写多读少，每次操作涉及整行数据，要求低延迟的快速交互。

列式存储非常适合分析型任务，这些任务通常需要海量数据上进行复杂的聚合查询（如求和、平均、计数、分组），但很少进行数据修改。

数据仓库与商业智能：分析销售数据，例如“计算每个地区、每个季度的销售额总和”。这个查询只涉及地区、时间和销售额三列，而列存只需读取这三列的数据，性能远超行存。
日志分析：分析网站访问日志，例如“统计不同浏览器的访问次数”或“查询某个特定API的错误率”。通常只需要扫描user_agent、status_code等少数几列。
实时报表：为管理层生成包含大量分组和聚合运算的报表。

核心特点：读多写少，每次查询只涉及大量行的少数几列，要求极高的查询吞吐量。

	行式存储	列式存储
哲学	“行合” - 把一条记录的所有内容放在一起，方便一次性管理。	“列合” - 把同类数据放在一起，方便批量分析。
好比	一个文件夹里放一个人的全部档案（身份证、学历、合同等）。找一个人的全部信息很快，但统计所有人的学历则很慢。	档案室把所有人的身份证、所有人的学历证明分别存放在不同的文件柜里。统计所有人的学历（只需打开一个文件柜）非常快，但重组一个人的全部档案则需要跑多个文件柜。
目标	优化事务处理（写）	优化分析查询（读）