UUID那些事

UUID那些事

UUID 是一个全局唯一的通用识别码。它使用某种规则,而不是某种中心化的自增方式,来保证这个识别码的全局唯一性。UUID 有非常多的使用场景,比如在分布式系统中,需要生成全局唯一 ID 来进行日志记录。UUID 的生成规则由 rfc4122 来进行定义。

UUID 和 GUID 的区别

其实是没有区别的,GUID 是微软按照 UUID 的规则实现的一套方法。它本质的目的也是为了保证全局唯一性。微软已经使用 GUID 在 Windows 的 COM,ActiveX 等技术上了。但是这里注意的一点是,UUID 本质是有多种版本的,GUID 也是在不同的使用场景实现的是不同的 UUID 版本,比如 COM 是使用 UUID 版本1 进行实现的。所以,在聊 UUID 和 GUID 是不是一样的时候,附带的信息应该了解清楚版本信息。

版本

UUID 是有不同的版本的,每个版本有不同的适用场景,比如,版本4 建议使用随机方式生成所有的可变因子。在很多场景下,这个其实是一个非常方便的实现方式。版本1 使用的是 时间戳+时钟序列+节点信息(机器信息)在一些分布式系统场景下是能严格保证全局唯一的。twitter 的 snowflake 可以看作是是 UUID 版本1 的简化版。

到现在为止,UUID 一共有5个实现版本:

  • 版本1: 严格按照 UUID 定义的每个字段的意义来实现,使用的变量因子是时间戳+时钟序列+节点信息(Mac地址)
  • 版本2: 基本和版本1一致,但是它主要是和 DCE( IBM 的一套分布式计算环境)。但是这个版本在 ietf 中也没有具体描述,反而在DCE 1.1: Authentication and Security Services这篇文档中说到了具体实现。所以这个版本现在很少使用到,并且很多地方的实现也都忽略了它。
  • 版本3: 基于 name 和 namespace 的 hash 实现变量因子,版本3使用的是 md5 进行 hash 算法。
  • 版本4: 使用随机或者伪随机实现变量因子。
  • 版本5: 基于 name 和 namespace 的 hash 实现变量因子,版本5使用的是 sha1 进行 hash 算法。

不管是 UUID 的哪个版本,它的结构都是一样的,这个结构是按照版本1进行定义的,只是在其他版本中,版本1中的几个变量因子都进行了变化。

UUID 基本结构

UUID 长度是128bit,换算为16进制数值(每4位代表一个数值)就是有32个16进制数值组成,中间使用4个-进行分隔,按照8-4-4-4-12的顺序进行分隔。加上中间的横杆,UUID有36个字符。

9674481.jpg

这个图是 UUID 的具体结构。它的可变因子有三个,Timestamp 时间戳,Clock Sequence时钟序列,node节点信息。然后由他们的不同部分组成这个 UUID。

Timestamp

时间戳是其中一个可变因子。时间戳有长度为 60bit。它代表现在当前UTC时间(必须使用UTC时间,这样就统一了时区)和1582-10-15 00:00:000000000,每100纳米加一。对于无法获取UTC时间的系统,由于获取不到UTC,那么你可以统一采用 localtime。(实际上一个系统时区相同就可以了)。

有了时间戳之后,结构图中的time_low,time_mid,time_hi就知道了

time_low

是 timestamp 60bit 中的 0~31bit,共32bit

time_mid

是 timestamp 60bit 中的 32~47bit,共16bit

time_hi_and_version

这个字段的意思很明确,就是包含两个部分,version 和 time_hi。version 占用 bit 数为4. 代表它最多可以支持31个版本。time_hi就是timestamp剩余的12bit,一共是16bit。

Clock Sequence

如果计算 UUID 的机器进行了时间调整,或者是 nodeId 变化了(主机更换网卡),和其他的机器冲突了。那么这个时候,就需要有个变量因子进行变化来保证再次生成的 UUID 的唯一性。

其实Clock Sequence的变化算法很简单,当时间调整,或者 nodeId 变化的时候,直接使用一个随机数,或者,在原先的Clock Sequence值上面自增加一也是可以的。

Clock Sequence 一共是14bit

clock_seq_low

是 Clock Sequence 中的 0~7 bit 共8bit

clock_seq_hi_and_reserved

包含两个部分,reserved 和 clock_seq_hi。其中 clock_seq_hi 为 Clock Sequence 中的 8~13 bit 共6个bit,reserved是2bit,reserved 一般设置为10。

node

node 这个变量因子由MAC地址组成,通常是IP地址。它有48bit大小。其中的 0-15填入node(0-1)的位置,16-47填入node(2-5)的位置。

不同版本

基本上,按照上节说的已经把 UUID 的结构构成说明清楚了。基本上这个结构构成是 UUID version1 的定义。我们可以看到,它有的变量因子是 timestamp, clock sequence, node。

在不同版本中,这几个变量因子的含义是不同的。

version4

在version4 中,timestamp,clock sequence, node都是随机或者伪随机的。

version3&5

version3和5 叫做基于 name 和 namesapce 的 hash 结构生成。其中的name 和namespace 基本上和我们很多语言的命名空间,类名一样,它的基本要求就是,name + namespace 才是唯一确定hash串的标准。换句话说,一样的namespace + name 使用的hash算法(比如version3的md5)计算出来的结果必须是一样的,但是不同的 namespace 中的同样的 name 生成的结果是不一样的。

version3 和 version5 中的三个变量因子都是由hash 算法保证的,version3是 md5, version5是sha1。

参考文档

wiki
理解UUID
分布式UniqueID的生成方法一览
关于UUID的二三事

<think>我们被要求生成关于UUID的详细介绍和使用方法。根据引用资料,我们可以总结如下: 1. UUID(通用唯一标识符)是一个128位的标识符,可以保证在空间和时间上的唯一性(引用[3])。 2. UUID有多种版本,常见的有基于时间的版本1、基于名字的MD5散列(版本3)、基于随机数的版本4、基于名字的SHA-1散列(版本5)(引用[1][2])。 3. 在Python中,可以使用uuid模块生成UUID,包括uuid1(), uuid3(), uuid4(), uuid5()(引用[1][2])。 4. 在Java中,java.util.UUID类提供了生成和操作UUID的方法(引用[4])。 5. 在JavaScript中,可以使用UUID.js库生成UUID(引用[5])。 现在,我们将按照以下结构组织回答: - UUID的定义和特性 - UUID的版本 - Python中的UUID使用 - Java中的UUID使用 - JavaScript中的UUID使用(使用UUID.js库) - 使用场景 注意:根据系统指令,行内数学表达式使用$...$,独立公式使用$$...$$,但UUID的描述中可能没有数学公式,所以我们可以忽略数学格式。另外,需要生成相关问题。 由于引用资料中提供了Python、Java和JavaScript的示例,我们将分别介绍。 回答: # UUID详解与使用方法 ## 1. UUID的定义 UUID(Universally Unique Identifier,通用唯一标识符)是一个128位的标识符,用于在分布式系统中唯一标识信息。它通过MAC地址、时间戳、命名空间、随机数或伪随机数等元素来保证其唯一性(引用[3])。UUID的标准形式为32个十六进制数字,分为五组,例如:`123e4567-e89b-12d3-a456-426655440000`。 ## 2. UUID的版本 UUID有多个版本,每个版本使用不同的生成算法: - **版本1(基于时间)**:使用当前时间戳和机器MAC地址生成。由于包含MAC地址,可能涉及隐私问题(引用[2])。 - **版本2(DCE安全)**:在RFC 4122中定义,但很少使用。注意:Python的uuid模块未提供uuid2函数(引用[1])。 - **版本3(基于名字的MD5散列)**:使用命名空间和一个名字,通过MD5散列算法生成(引用[2])。 - **版本4(基于随机数)**:使用随机或伪随机数生成,因此重复概率极低(引用[5])。 - **版本5(基于名字的SHA-1散列)**:与版本3类似,但使用SHA-1散列算法(引用[1])。 ## 3. Python中的UUID生成 Python的uuid模块提供了生成UUID的函数: ```python import uuid # 版本1:基于时间 uuid1 = uuid.uuid1() print(uuid1) # 例如: 123e4567-e89b-12d3-a456-426655440000 # 版本3:基于名字的MD5散列(需要提供命名空间和名字) namespace = uuid.NAMESPACE_DNS # 使用DNS命名空间 name = "example.com" uuid3 = uuid.uuid3(namespace, name) # 版本4:随机生成 uuid4 = uuid.uuid4() # 最常用,因为不包含主机信息 # 版本5:基于名字的SHA-1散列 uuid5 = uuid.uuid5(namespace, name) ``` ## 4. Java中的UUID生成 Java的java.util.UUID类提供了生成UUID的方法: ```java import java.util.UUID; public class UUIDExample { public static void main(String[] args) { // 生成随机的UUID (版本4) UUID uuid = UUID.randomUUID(); System.out.println(uuid.toString()); // 基于名字的UUID(版本3和5)需要手动构造,但Java标准库只提供版本3和4?实际上,Java的UUID类没有直接提供版本5,但可以通过其他方式实现。 // 注意:Java的UUID.nameUUIDFromBytes生成的是版本3(基于MD5) UUID uuid3 = UUID.nameUUIDFromBytes("example.com".getBytes()); System.out.println(uuid3); } } ``` ## 5. JavaScript中的UUID生成(使用UUID.js库) 在JavaScript中,可以使用第三方库UUID.js: ```html <!-- 在HTML中引入 --> <script src="src/uuid.js"></script> <script> // 生成版本4的UUID var uuid = UUID.generate(); // 默认版本4 console.log(uuid); </script> ``` 在Node.js中: ```javascript let UUID = require("uuidjs"); let uuid = UUID.generate(); ``` ## 6. UUID的使用场景 - 分布式系统中的唯一标识 - 数据库主键(避免主键冲突) - 会话标识 - 文件命名(避免重复,如引用[4]中提到的文件名生成) §§相关问题§§ 1. UUID版本1和版本4有什么区别? 2. 如何在MySQL数据库中使用UUID作为主键? 3. 使用UUID作为主键有什么优缺点? 4. 如何在Python中安全地生成版本4的UUID? 5. 如何解析一个UUID字符串并获取其版本信息?</think>### UUID详解与使用方法 #### 1. UUID定义 UUID(Universally Unique Identifier,通用唯一标识符)是一个128位的标识符(通常以32位十六进制字符串表示),格式如:`123e4567-e89b-12d3-a456-426655440000`。其核心特性包括: - **全局唯一性**:通过时间戳、随机数、MAC地址等元素组合,在空间和时间维度保证极低重复概率[^3] - **无需中央注册**:可本地生成且无需协调分配[^3] - **固定长度**:始终占用128位存储空间(16字节)[^3] #### 2. 主要版本及生成原理 | 版本 | 生成方式 | 特点 | 适用场景 | |------|----------|------|----------| | **v1** | 基于时间戳+MAC地址 | 包含主机信息,可能泄露隐私 | 分布式系统跟踪 | | **v3** | 基于命名空间+名称的MD5哈希 | 确定性生成(相同输入输出相同) | 文件签名、内容标识 | | **v4** | 基于随机数 | 完全随机,隐私性好(最常用) | 安全敏感场景 | | **v5** | 基于命名空间+名称的SHA-1哈希 | 类似v3但更安全 | 需要确定性的唯一ID | > ⚠️ 注意:Python/Java等语言均未实现**v2**(DCE安全版本)[^1][^2] #### 3. 编程实现示例 **Python (uuid模块)** ```python import uuid # 生成版本4 UUID (随机) print(uuid.uuid4()) # 输出如: 9c4b1b2f-3a8c-4d27-81d2-1e0e5b6c7d8a # 生成版本3 UUID (基于命名空间) namespace_dns = uuid.NAMESPACE_DNS print(uuid.uuid3(namespace_dns, "example.com")) # 固定输出 ``` **Java (java.util.UUID)** ```java import java.util.UUID; public class UUIDDemo { public static void main(String[] args) { // 版本4生成 UUID id = UUID.randomUUID(); System.out.println(id); // 如: 550e8400-e29b-41d4-a716-446655440000 // 获取版本号 System.out.println(id.version()); // 输出4 } } ``` **JavaScript (UUID.js库)** ```html <script src="https://cdn.jsdelivr.net/npm/uuidjs@4.2.0/dist/uuid.min.js"></script> <script> // 生成版本4 const uuid = UUID.generate(); console.log(uuid); // 如: 1b9d6bcd-bbfd-4b2d-9b5d-ab8dfbbd4bed </script> ``` #### 4. 关键应用场景 1. **数据库主键**:替代自增ID,避免分库分表冲突 ```java // Java示例:文件名生成 String fileName = UUID.randomUUID().toString() + ".jpg"; [^4] ``` 2. **分布式追踪**:微服务调用链的请求ID 3. **安全令牌**:会话ID、API密钥 4. **文件去重**:相同内容生成相同v3/v5 UUID #### 5. 注意项 - **性能**:v4生成速度最快,v1/v3/v5涉及计算开销 - **隐私**:v1可能暴露MAC地址和时间信息 - **存储优化**:二进制存储(16字节)优于字符串(36字节) - **碰撞概率**:v4需使用强随机源(如`crypto.getRandomValues()`)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值