数据库主键设计：自增ID、UUID与雪花算法的探讨

最新推荐文章于 2025-03-23 14:54:14 发布

华农第一蒟蒻

最新推荐文章于 2025-03-23 14:54:14 发布

阅读量1.2k

点赞数 7

文章标签：数据库算法 oracle

本文链接：https://blog.youkuaiyun.com/2301_80011650/article/details/144137778

版权

在数据库设计中，选择合适的主键是至关重要的。主键的选择不仅影响到数据的唯一性，还关系到查询性能、存储空间以及系统的可扩展性。本文将详细讨论自增ID（Auto Increment）、UUID（Universally Unique Identifier）和雪花算法（Snowflake Algorithm）作为主键时各自的优缺点，并针对分库分表等场景提出解决方案。

自增ID作为主键

优点

速度快：自增ID由数据库自动管理，插入操作快速。
占用空间小：数字型字段占用的存储空间较小。
易排序：自然增长的顺序有助于优化B+树索引结构，提高查询效率。
简单易用：几乎所有的数据库都支持自增类型，实现简单。

缺点

分布式环境下的唯一性问题：在单个数据库实例中，自增ID可以保证唯一性，但在分布式系统或多库多表的情况下，每个数据库实例的自增ID可能会重复，导致全局不唯一。
性能隐患：高并发情况下，所有新记录的插入都会集中在最后一个ID上，这可能导致锁争用，降低写入性能。
安全性问题：自增ID容易被猜测，可能泄露业务信息，比如用户数量或订单量等。

UUID作为主键

优点

全局唯一：几乎可以保证在任何时间、任何地点生成的UUID都是唯一的。
跨数据库迁移方便：由于UUID的独立性，它可以在不同的数据库之间迁移而不会出现冲突。
不可预测性：随机生成的UUID很难被猜测，增强了数据的安全性。

缺点

无序性：UUID通常是随机生成的，这种无序性会导致索引频繁分裂(叶分裂)，影响写入性能。
占用空间大：标准的UUID长度为36个字符，占用更多存储空间。
不适合范围查询：由于UUID的无序性，使用UUID进行范围查询时效率较低。

雪花算法（Snowflake）

结构

64位ID结构

一个由雪花算法生成的64位ID主要由以下几部分组成：

符号位（1 bit）：最高位固定为0，表示这是一个正数。因为long类型在Java等语言中是带符号的，最高位0表示正数。
时间戳（41 bits）：接下来的41位用来存储毫秒级的时间戳。这个时间戳不是直接存储当前时间的时间戳，而是相对于某个预设起点的时间差值。通常，这个起点是一个自定义的纪元时间（例如服务上线时间），以确保未来足够长的时间里不会出现溢出。41位可以支持约69年的使用期限。
数据中心ID（5 bits）：再接下5位用于标识数据中心。这允许在一个分布式系统中部署最多32个不同的数据中心。数据中心ID和工作机器ID共同组成了机器码，用于区分不同机器。
工作机器ID（5 bits）：紧随其后的5位用于标识具体的工作机器或进程。与数据中心ID结合，可以在每个数据中心内部署最多32个工作机器，总共支持1024台机器（32*32=1024）。
序列号（12 bits）：最后12位是序列号，用于在同一毫秒内生成多个ID。序列号从0开始递增，最大可达到4095（2^12-1）。如果同一毫秒内生成的ID超过4096个，则需要等待下一毫秒才能继续生成。

结构图示

  0 - 0000000000 0000000000 0000000000 0000000000 0 - 0000000000 - 000000000000
  |---------------------|------------------|------------------|------------------|
  符号位               时间戳            数据中心ID        工作机器ID       序列号