Java编程:浅析来自 Twitter 的分布式 ID 生成算法 Snowflake

本文深入浅出地介绍了Twitter的分布式ID生成算法Snowflake的工作原理及其Java实现。文章详细解释了64位ID的组成结构,包括时间戳、数据中心ID、工作机器ID及序列号等部分,并探讨了其在分布式系统中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

浅析来自 Twitter 的分布式 ID 生成算法 Snowflake。如有不正之处,欢迎批评指正。

编码定义

Snowflake算法生成的是一个 64 位大小的正整数,ID 编码定义如下:
这里写图片描述

  • 1位–符号位:二进制中0表示正数,1表示负数,算法中默认值为0。
  • 41位–时间戳:生成 ID 时的时间戳,单位毫秒,表示的数据范围为 0 到 (2^41 - 1),也就是 41 位最大可以表示 (2^41 - 1)毫秒,(2^41 - 1) / 1000 / 60 / 60 / 24 / 365 = 69年。对于一般企业来讲 69 年的时间戳足够使用了,但是到了 69 年之后怎么办呢?欢迎大家提供好的方案。
    public static void main (String [] args){
        Long val = new Double(Math.pow(2, 41)).longValue();
        Long year = (val -1) / 1000 / 60 / 60 / 24 / 365;
        System.out.println( year);
    }
  • 5位–数据中心 ID:用来记录数据中心的 ID,表示的数据范围为 0 到 (2^5 - 1)= 31,也就是最多可以表示 32 个数据中心。
  • 5位–工作机器 ID:用来记录工作机器的 ID,表示的数据范围为 0 到 (2^5 - 1)= 31,也就是最多可以表示 32 个工作机器。32 * 32 = 1024,也就是理论上可以表示 1024 台机器。
  • 12位–序列号:用来记录同一毫秒内的序列号,表示的数据范围为 0 到(2^12 - 1) = 4095,也就是在同一机器上,同一时间戳(毫秒)内最大允许生成 4095 的序列号。

以上就是 64 位 ID 编码的具体定义,大家可能会想到,为什么编码的长度是64位呢?
我是这样认为的:

  • 各类编程语言的长整形一般都是 64 位的。
  • 数据库中的 bigint 也是 64 位的。
  • 主流服务器的 CPU、操作系统也都是 64 位的。
  • 而且 64 位的数据刚好可以表示一个可接受的编码规则(69年、1024台服务器、每毫秒4095个序列号)。

Snowflake 算法的特征:

  • 所有生成的 ID 是按时间递增的,便于排序。
  • 整个分布式系统内不会产生重复的 ID。每台机器加锁获取 ID,编码是基于数据中心id、机器 ID的,在不同机器见编码的隔离性,如果同一时间戳内生产的序列号大于 4095,则在下一时间戳重新生成序列号,已保证数据的有效性。

代码分析

网络上找的 Snowflake 算法的 Java 实现,经过验证,该算法可信,欢迎大家使用。

package org.learn.id;

public class SnowFlateWorker {
    // Twitter 纪元时间:2010-11-04 09:42:54 657,算法中的时间戳从这一时刻开始计时
    private long twepoch = 1288834974657L;

    // 机器 ID 用 5 位二进制数表示
    private long workerIdBits = 5L;
    // 数据中心 ID 用 5 位二进制数表示
    private long datacenterIdBits = 5L;
    // 最大的机器 ID:2^5 - 1
    private long maxWorkerId = -1L ^ (-1L << workerIdBits);
    // 最大的数据中心 ID:2^5 - 1
    private long maxDatacenterId = -1L ^ (-1L << datacenterIdBits);

    // 时间戳内的序列号用 12 位二进制数表示
    private long sequenceBits = 12L;

    // 机器 ID 左移 12 位,也就是右起第 12 到 16 位表示机器 ID
    private long workerIdShift = sequenceBits;
    // 数据中心 ID 左移 17 位,也就是右起第 17 到 21 位表示数据中心 ID
    private long datacenterIdShift = sequenceBits + workerIdBits;
    // 时间戳左右 22 位,也就是右起第 22 到 62 位表示数据中心 ID,63 位为 Long 型的符号位
    private long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits;
    // 序列号的掩码,值为 4095,(sequence + 1) & sequenceMask == 0,则表示序列号大于4095,应该重新生成序列号
    private long sequenceMask = -1L ^ (-1L << sequenceBits);

    // 系统最后记录的时间戳
    private long lastTimestamp = -1L;

    // 机器 ID
    private long workerId;
    // 数据中心 ID
    private long datacenterId;
    // 序列号
    private long sequence;

    public SnowFlateWorker(long workerId, long datacenterId, long sequence) {
        // sanity check for workerId
        if (workerId > maxWorkerId || workerId < 0) {
            throw new IllegalArgumentException(String.format("worker Id can't be greater than %d or less than 0", maxWorkerId));
        }
        if (datacenterId > maxDatacenterId || datacenterId < 0) {
            throw new IllegalArgumentException(String.format("datacenter Id can't be greater than %d or less than 0", maxDatacenterId));
        }
        System.out.printf("worker starting. timestamp left shift %d, datacenter id bits %d, worker id bits %d, sequence bits %d, workerid %d",
                timestampLeftShift, datacenterIdBits, workerIdBits, sequenceBits, workerId);

        this.workerId = workerId;
        this.datacenterId = datacenterId;
        this.sequence = sequence;
    }

    public long getWorkerId() {
        return workerId;
    }

    public long getDatacenterId() {
        return datacenterId;
    }

    public long getTimestamp() {
        return System.currentTimeMillis();
    }

    public synchronized long nextId() {
        long timestamp = timeGen();

        if (timestamp < lastTimestamp) {
            System.err.printf("clock is moving backwards.  Rejecting requests until %d.", lastTimestamp);
            throw new RuntimeException(String.format("Clock moved backwards.  Refusing to generate id for %d milliseconds",
                    lastTimestamp - timestamp));
        }

        if (lastTimestamp == timestamp) {
            sequence = (sequence + 1) & sequenceMask;
            if (sequence == 0) {
                timestamp = tilNextMillis(lastTimestamp);
            }
        } else {
            sequence = 0;
        }

        lastTimestamp = timestamp;
        return ((timestamp - twepoch) << timestampLeftShift) |
                (datacenterId << datacenterIdShift) |
                (workerId << workerIdShift) |
                sequence;
    }

    private long tilNextMillis(long lastTimestamp) {
        long timestamp = timeGen();
        while (timestamp <= lastTimestamp) {
            timestamp = timeGen();
        }
        return timestamp;
    }

    private long timeGen() {
        return System.currentTimeMillis();
    }

    //---------------测试---------------
    public static void main(String[] args) {
        SnowFlateWorker worker = new SnowFlateWorker(1, 1, 1);
        for (int i = 0; i < 30; i++) {
            System.out.println(worker.nextId());
        }
    }
}

在分析代码之前,我们先来回顾一下计算机的位运算以及运算符优先级。

原码、反码、补码

计算机中所有的运算都是以补码的形式进行的,原码、反码、补码的转换公式如下:

  • 正数

    原码 = 反码 = 补码

  • 负数

    反码 = 原码的符号位不变,数值位按位取反
    补码 = 反码符号位不变 + 末位加1

算法中用到的是 64 位的 Long 进行计算的,因此我们的示例都使用 64 位。

示例:
这里写图片描述

位运算

Java支持的位运算符:

  • &:按位与,只有两个操作数对应位同为1时,结果为1,其余全为0。
  • |:按位或,只有两个操作数对应位同为0时,结果为0,其余全为1。
  • ~:按位取反,0变为1,1变为0。
  • ^:按位异或,相同为0,不同为1.
  • <<:左位移运算符,向左移位,符号位不变,低位补0。
  • >>:右位移运算符,向右移位,符号位不变,并用符号位补高位,低位溢出。
  • <<<:无符号右移运算符,向右移位,高位补0,低位溢出。

运算符优先级

优先级运算符结合性
1() [] .从左到右
2! +(正) -(负) ~ ++ –从右向左
3
  • / %
从左到右
4+(加) -(减)从左到右
5<< >> >>>从左到右
6< <= > >= instanceof从左到右
7== !=从左到右
8&(按位与)从左到右
9^从左到右
10|从左到右
11&&从左到右
12||从左到右
13?:从右向左
14= += -= *= /= %= &= |= ^= ~= <<= >>= >>>=从右向左

了解了原码、反码、补码、位运算、运算符优先级,我们一起分析一下 Snowflake 算法中的位运算。

运算一

private long maxWorkerId = -1L ^ (-1L << workerIdBits);

以上这句话的执行逻辑是这样的:
-1 左移 workerIdBits(5) 位,然后与 -1 进行异或,执行过程如下图所示:
这里写图片描述
问:代码中为什么不写成 31?

private long maxWorkerId = 31;

答:这是为了将来代码扩展方便,比如我要设置 6 位 workerId,直接修改 workerIdBits = 6 就可以了。

运算二

sequence = (sequence + 1) & sequenceMask;
if (sequence == 0) {
    timestamp = tilNextMillis(lastTimestamp);
}

这句话的作用是,sequence 每次加 1,然后与 sequenceMask(4095) 进行按位与运算,如果结果等于 0,则执行 tilNextMillis 操作。什么样的情况下结果会等于 0?我们先来了解一下与运算过程,如下图所示:
这里写图片描述

通过上图的运算,我们可以得出以下结论:

  • b 为最后几位连续为 1 的正数,若 a <= b,则 a & b = a
  • b 为最后几位连续为 1 的正数,若 a > b 且 a = b + 1,则 a & b = 0

通过上面的分析,我们可以得知,(sequence + 1) & sequenceMask == 0是为了找到4096(4095+1),一旦找到,就认为序列号溢出,需要进行下个时间戳的序列号计算。

运算三

我们来分析下 Snowflake 的编码生成方式,如下代码:

((timestamp - twepoch) << timestampLeftShift) |
                (datacenterId << datacenterIdShift) |
                (workerId << workerIdShift) |
                sequence;

通过以下方法获取timestamp - twepoch

Long curTime = System.currentTimeMillis();
Long twepoch = 1288834974657L;
Long value = curTime - twepoch;
String str = Long.toBinaryString(value);
System.out.println("Long=" + value);
System.out.println("BinaryString=" + str);

//Long=237732810191
//BinaryString=11011101011001111110101100110111001111

上方代码的运算过程如下图所示,红色框中的二进制串转换为10进制后,就可以得到我们需要的 Snowflake 编码。
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值