什么是数据库的分库、分表、分片？他们都有什么作用？

原创已于 2025-10-01 14:40:17 修改 · 682 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #mysql #postgresql

于 2025-09-30 23:44:44 首次发布

数据库从入门到精通专栏收录该内容

10 篇文章

订阅专栏

【投稿赢 iPhone 17】「我的第一个开源项目」故事征集：用代码换C位出道！ 10w+人浏览 1.6k人参与

这是一个非常核心且重要的问题！在高并发、大数据量的系统中，单台数据库服务器会成为性能瓶颈。为了解决这个问题，我们引入了 分库、分表、分片 等分布式数据库技术。

下面我将为你详细解释：

什么是 分库、分表、分片
他们之间的关系
各自的作用
解决的核心问题
实际开发中的应用场景

🧩 一、基本概念定义

术语	英文	定义
分库	Database Sharding / Horizontal Partitioning	将一个大数据库拆分成多个独立的数据库（可以位于不同服务器）
分表	Table Partitioning	将一张大表拆分成多个结构相同或不同的子表
分片	Sharding	广义概念，指将数据水平切分到多个数据库或表中，是“分库”和“分表”的统称

🔍 简单理解：

分片 = 分库 + 分表
它们都是为了实现 水平扩展（Horizontal Scaling）

🎯 二、他们都是为了解决什么问题？

❌ 单库单表的瓶颈

当系统发展到一定规模时，单台 PostgreSQL 或 MySQL 会面临以下问题：

问题	说明
💾 存储瓶颈	单表数据量过大（如 1 亿条），磁盘空间不足
🐢 查询性能下降	索引变大，`SELECT` 变慢，`ORDER BY`、`GROUP BY` 耗时增加
🔗 连接数限制	数据库连接池耗尽，应用无法获取连接
📈 写入瓶颈	高频 `INSERT` 导致 WAL 写满、锁竞争严重
🔄 维护困难	`VACUUM`、`ANALYZE`、备份恢复耗时极长

⚠️ 典型场景：用户表 5000 万条、订单表每天新增 100 万条 → 单机扛不住！

✅ 三、分库、分表、分片详解

1. 🔹 分库（Database Sharding）

📌 定义：

将一个数据库按某种规则拆分成多个独立的数据库，每个库可以部署在不同的物理服务器上。

🎯 作用：

分散 I/O 压力
提升整体吞吐量
实现数据库的水平扩展

🧩 示例：

假设你有 1 亿用户，可以按 user_id % 2 拆成两个库：

db0（user_id 为偶数） → server1:5432
db1（user_id 为奇数） → server2:5432

✅ 优点：

数据分散，降低单库压力
可独立扩展硬件资源
故障隔离（一个库挂了不影响另一个）

⚠️ 缺点：

跨库查询复杂（如统计所有用户）
事务难以跨库支持
需要中间件或应用层路由

2. 🔹 分表（Table Partitioning）

📌 定义：

将一张大表按某种规则拆分成多个子表，这些子表可以属于同一个库，也可以分布在不同库中。

🧩 类型：

类型	说明	示例
水平分表	按行拆分，每张表结构相同，数据不同	`orders_2024`, `orders_2025`
垂直分表	按列拆分，不同表存储不同字段	`user_base`, `user_profile`

✅ 水平分表示例：

-- 按时间分表
orders_2024
orders_2025
orders_2026

-- 按 ID 分表
orders_0  (id % 4 = 0)
orders_1  (id % 4 = 1)
...

✅ 优点：

减少单表数据量，提升查询性能
可针对不同表设置不同索引、存储策略
PostgreSQL 支持原生 表分区（Partitioning）

⚠️ 缺点：

需要应用或中间件路由
跨表查询需合并结果

3. 🔹 分片（Sharding）

📌 定义：

分片是“分库”和“分表”的统称，是一种将数据水平切分到多个数据库节点的技术。

✅ 分片 = 分库 + 分表 + 路由逻辑

🎯 核心思想：

把大问题拆成小问题，让多个数据库一起承担压力。

🧩 分片键（Sharding Key）：

决定数据如何分布的关键字段，如：

user_id
order_id
tenant_id（多租户系统）

📈 路由方式：

方式	说明
取模（Mod）	`shard = id % N`，简单但扩容难
范围分片	`id < 1000万 → shard0`，适合时间序列
一致性哈希	扩容时数据迁移少，适合缓存、分布式系统

🔗 四、分库、分表、分片的关系

                     +------------------+
                     |     分片 (Sharding)     |
                     +------------------+
                               |
           +-------------------+-------------------+
           |                                       |
   +-------v--------+                   +----------v----------+
   |     分库         |                   |       分表             |
   | (Database Split) |                   | (Table Partitioning)   |
   +------------------+                   +----------------------+
           |                                       |
   按数据库拆分                           按表结构拆分
   （可跨服务器）                         （可在同库或跨库）

✅ 实际项目中，分片通常同时包含分库和分表：

先分库（如 db0, db1）
每个库内再分表（如 orders_0, orders_1）

✅ 五、他们解决了哪些问题？（总结）

技术	解决的问题	适用场景
分库	单库 I/O、连接数、存储瓶颈	高并发读写、大数据量
分表	单表数据量过大、查询慢	日志、订单、消息表
分片	单机无法扩展、性能瓶颈	超大规模系统（如电商、社交）

🧪 六、实际开发中的应用场景

场景 1：用户中心系统（按 `user_id` 分片）

用户ID：1001 → 路由到 db0.user_0
用户ID：1002 → 路由到 db1.user_1

✅ 优点：用户数据隔离，查询快
✅ 工具：ShardingSphere、MyCat

场景 2：订单系统（按时间分表）

CREATE TABLE orders_2024 PARTITION OF orders
    FOR VALUES FROM ('2024-01-01') TO ('2025-01-01');

✅ PostgreSQL 原生支持
✅ 查询某年订单时，只扫描对应分区

场景 3：多租户 SaaS 系统（按 `tenant_id` 分库）

tenant_a → db_tenant_a
tenant_b → db_tenant_b

✅ 数据隔离性强
✅ 可为大客户分配独立数据库

场景 4：日志系统（按时间分库 + 分表）

log_db_2024 → log_01, log_02, ..., log_12
log_db_2025 → log_01, log_02, ..., log_12

✅ 冷热数据分离
✅ 老数据可归档或删除

🛠️ 七、实现方式对比

方式	说明	优点	缺点
应用层分片	在 Java 代码中手动路由	灵活，控制力强	侵入性强，维护难
中间件分片（如 ShardingSphere）	透明路由，兼容 JPA/MyBatis	无侵入，功能强大	增加运维复杂度
数据库原生分区（PostgreSQL Partitioning）	使用 `PARTITION BY RANGE/LIST`	性能好，管理方便	不支持跨分区事务

✅ 八、推荐做法（Java 开发者）

建议	说明
✅ 小项目先不分片	单库优化（索引、SQL、读写分离）优先
✅ 中等项目用 PostgreSQL 分区表	原生支持，简单高效
✅ 大项目用 ShardingSphere	分库分表 + 读写分离一体化
✅ 分片键要选好	选高频查询字段，避免热点数据
✅ 避免跨分片查询	如必须，用“应用层聚合”
✅ 监控分片均衡性	避免某个库数据过多（数据倾斜）

✅ 九、总结：一句话搞懂三者区别

术语	一句话解释
分库	把一个数据库拆成多个数据库，放不同服务器上
分表	把一张大表拆成多张小表，结构相同或不同
分片	是分库和分表的统称，目的是水平扩展数据库