数据库的唯一标示符(ID)的选择

本文深入探讨了数据库设计中主键选择的策略与实现,对比了逻辑主键与业务主键的优缺点,提出了使用自增id作为主键的方法,以及结合uuid作为逻辑id的优点。同时,阐述了id数据类型选择的重要性,提供了MySQL环境下主键设计的实用方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


背景:数年的工作中,已经设计了很多系统或产品的数据库,有单机的、有局域网环境下的、也有互联网环境下的,对于不同的环境,设计考虑都有所不同。即使对于相同的环境,也会因为业务或者数据量的不同而有不同的设计。近期,又要设计一款互联网产品的数据库(MySQL服务)。经过之前的积累,在表的ID设计这个环节就进行了大量的分析、比较、学习,对ID的设计也有了更系统和深刻的认知,把自己学习实践到的知识总结下来,分享给大家。


主键id的选择

对于关系数据库来说,设计每个表的第一步都会确定其主键,主键就是ID。在“常识”之中,int型的自增id,字符串类型的uuid,其他与业务相关的唯一键…都是我们作为主键的选择。那么是不是说在一张表中只要能保证值唯一的属性列都可以做为主键或者更合适做主键呢?

那我们首先清晰几个概念:

  • 逻辑主键(代理主键):在数据库表中采用一个与当前表中业务逻辑信息无关的字段作为其主键,或称为“伪主键”;

  • 业务主键(自然主键):在数据库表中把具有业务逻辑含义的字段作为主键;

举一个很常见的例子:一张用户信息表,列属性有id、用户名、手机号…,其中用户名和手机号(作为登录账号二者都是唯一的)。其中id便可作为逻辑主键,用户名和手机号都可以作为业务主键。那我是不是可以随便选一个,甚至我选择了业务主键都可以不要逻辑主键?

那么我们首先来看看逻辑主键和业务主键之间纷纷烈烈的观点分歧:

  • 支持逻辑主键

    表通过主键来保证每条记录的唯一性,表的主键应当不具有任何业务含义,因为任何有业务含义的列都有改变的可能性。关系数据库学的最重要的一个理论就是:不要给关键字赋予任何业务意义。假如关键字具有了业务意义,当用户决定改变业务含义,也许他们想要为关键字增加几位数字或把数字改为字母,那么就必须修改相关的关键字。一个表中的主关键字有可能被其他表作为外键。就算是一个简单的改变,譬如在客户号码上增加一位数字,也可能会造成极大的维护上的开销。

    为了使表的主键不具有任何业务含义,一种解决方法是使用代理主键,例如为表定义一个不具有任何业务含义的ID字段(也可以叫其他的名字),专门作为表的主键。
    ——孙卫琴《精通Hibernate:Java对象持久化技术详解》P8



  • 使用逻辑主键的主要原因是,业务主键一旦改变则系统中关联该主键的部分的修改将会是不可避免的,并且引用越多改动越大。而使用逻辑主键则只需要修改相应的业务主键相关的业务逻辑即可,减少了因为业务主键相关改变对系统的影响范围。业务逻辑的改变是不可避免的,因为“永远不变的是变化”,没有任何一个公司是一成不变的,没有任何一个业务是永远不变的。最典型的例子就是***升位和驾驶执照号换用***号的业务变更。而且现实中也确实出现了***号码重复的情况,这样如果用***号码作为主键也带来了难以处理的情况。当然应对改变,可以有很多解决方案,方案之一是做一新系统与时俱进,这对软件公司来说确实是件好事。

    使用逻辑主键的另外一个原因是,业务主键过大,不利于传输、处理和存储。我认为一般如果业务主键超过8字节就应该考虑使用逻辑主键了,因为int是4字节的,bigint是8字节的,而业务主键一般是字符串,同样是 8 字节的 bigint 和 8 字节的字符串在传输和处理上自然是 bigint 效率更高一些。想象一下 id 为”12345678” 和 id为12345678 的汇编码的不同就知道了。当然逻辑主键不一定是 int 或者 bigint ,而业务主键也不一定是字符串也可以是 int 或 datetime 等类型,同时传输的也不一定就是主键,这个就要具体分析了,但是原理类似,这里只是讨论通常情况。同时如果其他表需要引用该主键的话,也需要存储该主键,那么这个存储空间的开销也是不一样的。而且这些表的这个引用字段通常就是外键,或者通常也会建索引方便查找,这样也会造成存储空间的开销的不同,这也是需要具体分析的。

    使用逻辑主键的再一个原因是,使用 int 或者 bigint 作为外键进行联接查询,性能会比以字符串作为外键进行联接查询快。原理和上面的类似,这里不再重复。

    使用逻辑主键的再一个原因是,存在用户或维护人员误录入数据到业务主键中的问题。例如错把 RMB 录入为 RXB ,相关的引用都是引用了错误的数据,一旦需要修改则非常麻烦。如果使用逻辑主键则问题很好解决,如果使用业务主键则会影响到其他表的外键数据,当然也可以通过级联更新方式解决,但是不是所有都能级联得了的。
    ——SwitchBlade的总结

  • 支持业务主键

    如果你的表中包含一列能确保唯一、非空以及能够用来定位一条记录,就别仅仅因为传统而觉得有必要再加上一个伪主键。
    ——Bill Karwin 《SQL反模式》 p41



  • 使用业务主键的主要原因是,增加逻辑主键就是增加了一个业务无关的字段,而用户通常都是对于业务相关的字段进行查找(比如员工的工号,书本的 ISBN No. ),这样我们除了为逻辑主键加索引,还必须为这些业务字段加索引,这样数据库的性能就会下降,而且也增加了存储空间的开销。所以对于业务上确实不常改变的基础数据而言,使用业务主键不失是一个比较好的选择。另一方面,对于基础数据而言,一般的增、删、改都比较少,所以这部分的开销也不会太多,而如果这时候对于业务逻辑的改变有担忧的话,也是可以考虑使用逻辑主键的,这就需要具体问题具体分析了。

    使用业务主键的另外一个原因是,对于用户操作而言,都是通过业务字段进行的,所以在这些情况下,如果使用逻辑主键的话,必须要多做一次映射转换的动作。我认为这种担心是多余的,直接使用业务主键查询就能得到结果,根本不用管逻辑主键,除非业务主键本身就不唯一。另外,如果在设计的时候就考虑使用逻辑主键的话,编码的时候也是会以主键为主进行处理的,在系统内部传输、处理和存储都是相同的主键,不存在转换问题。除非现有系统是使用业务主键,要把现有系统改成使用逻辑主键,这种情况才会存在转换问题。暂时没有想到还有什么场景是存在这样的转换的。

    使用业务主键的再一个原因是,对于银行系统而言安全性比性能更加重要,这时候就会考虑使用业务主键,既可以作为主键也可以作为冗余数据,避免因为使用逻辑主键带来的关联丢失问题。如果由于某种原因导致主表和子表关联关系丢失的话,银行可是会面临无法挽回的损失的。为了杜绝这种情况的发生,业务主键需要在重要的表中有冗余存在,这种情况最好的处理方式就是直接使用业务主键了。例如***号、存折号、卡号等。所以通常银行系统都要求使用业务主键,这个需求并不是出于性能的考虑而是出于安全性的考虑。
    ——SwitchBlade的总结

所以说明逻辑主键和业务主键的选择并不是拍脑瓜的结果,而是根据不同的应用场景、不同的需求决策的结果。

如果我们使用整数类型的自增id作为主键又会面临什么问题呢?
对于数据量非常大的表后期往往会涉及到水平分表的需求,这时这个自增主键会成为阻碍。(其实关于这种情况也会有解决方案,请参见文章《又拍网架构中的分库设计》

ID数据类型的选择

我们再换一个角度考虑主键的选择:数据类型。

  • 整数类型
    整数类型往往是id列最好的选择,因为效率最高并且可以使用数据库的自增主键。

  • 字符串类型
    字符串类型相比整数类型肯定更消耗空间,也会比整数类型操作慢。我主要使用的是Mysql,关于这个话题的解释建议看《高性能MySQL》第三版 P125。


我采用的方案(MySQL):使用自增id作为主键,以此来应对插入效率问题;采用uuid做逻辑id,拥有了逻辑主键的诸多好处,而且可以用来应对之后的水平分表。

本文出自 “永远的朋友” 博客,请务必保留此出处http://yaocoder.blog.51cto.com/2668309/1567715

### 高斯数据库唯一标识实现方式及用法 #### 1. 唯一标识的概念及其重要性 在关系型数据库管理系统中,唯一标识用于确保每条记录具有唯一的身份。这有助于防止重复数据并简化查询操作。对于像GaussDB这样的高性能云原生数据库来说,合理利用唯一标识能够提高应用开发效率维护便捷度。 #### 2. GaussDB 中的序列(Sequence) 为了生成唯一标识,GaussDB 提供了一种称为“序列”的机制。这是一种特殊的单行表,它按照指定规则自动生成一系列整数值作为主键或其他字段上的唯一编号[^1]。 创建一个新的序列可以通过 `CREATE SEQUENCE` 语句完成: ```sql CREATE SEQUENCE seq_example INCREMENT BY 1 START WITH 1 NO MAXVALUE CACHE 1; ``` 上述代码片段展示了如何定义一个名为 `seq_example` 的简单递增序列对象。其中: - INCREMENT BY 定义每次增量; - START WITH 设置起始值; - NO MAXVALUE 表明该序列不会达到最大界限而循环重置; - CACHE 可选参数用来优化性能,默认情况下为 1,意味着每次只缓存下一个可用号码。 #### 3. 使用序列生成唯一 ID 一旦建立了合适的序列之后,在插入新纪录时就可以借助此工具自动填充目标列的数据了。下面给出一段完整的SQL脚本实例说明这一过程: 假设有一个员工信息表格 employee_info ,其结构如下所示: | Column | Type | |--| | id | INT PRIMARY KEY | | name | VARCHAR(50) | 现在希望每当向这张表里添加一条新的雇员资料时都能为其分配独一无二的身份码,则可以在建表的同时引入之前建立好的序列: ```sql -- 创建带有默认约束条件的应用程序逻辑 ALTER TABLE employee_info ALTER COLUMN id SET DEFAULT nextval('seq_example'); ``` 此时再执行 INSERT INTO ... VALUES(...) 操作便无需手动指派id属性的具体取值;系统会依据预先设定好的规则自行处理好一切细节问题。 #### 4. UUID 类型的支持 除了传统的基于整形数目的序列外,现代版次号较高的版本还增加了对通用唯一识别码(UUID)类型的内置支持。UUID 是一种由算法产生的固定长度字串形式的独特编码方案,广泛应用于分布式环境中以避免冲突风险。如果应用程序需要更高级别的全局唯一随机分布特性的话,那么采用这种模式将是更好的选择之一。 要在 GaussDB 中声明 uuid 字段并在新增加记录时不显式赋给具体值得话,可以这样做: ```sql -- 添加uuid扩展包 CREATE EXTENSION IF NOT EXISTS "uuid-ossp"; -- 修改现有表结构增加uuid字段, 并设置默认值函数 ALTER TABLE employee_info ADD COLUMN guid UUID DEFAULT uuid_generate_v4(); ``` 这段指令首先加载必要的插件模块,接着调整原有架构以便容纳额外的信息单元——guid 。这里特别强调的是最后一步所使用的 `uuid_generate_v4()` 函数,它可以按需生产合 RFC4122 标准第四版规格书描述的方法论产出完全独立于时间戳记其他因素影响下的伪随机GUID串流。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值