一致性Hash原理及其算法实现_哈希同步-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43476471/article/details/114600032

概述

一致性哈希算法在1997年由麻省理工学院的Karger等人在解决分布式Cache中提出，设计目标是为了解决热点(Hot spot)问题

原理

现在一致性hash算法在分布式系统中也得到了广泛应用，具体在计算一致性hash时采用如下步骤：

求出服务器（节点）的哈希值，并将其配置到0～2^32-1的圆上
采用同样算法求出存储数据键的哈希值，并映射到相同的圆上

在这里插入图片描述

然后按数据映射到的位置开始顺时针查找，将数据保存到找到的第一个服务器上。如果超过2^32-1仍然找不到服务器，就会保存到第一台服务器上

例如有Object A、Object B、Object C、Object D四个数据对象，经过哈希计算后，在环空间上的位置如下：

在这里插入图片描述

下面分析一致性哈希算法的容错性和可扩展性。现假设Node C不幸宕机，可以看到此时对象A、B、D不会受到影响，只有C对象被重定位到Node D。一般的，在一致性哈希算法中，如果一台服务器不可用，则受影响仅仅是此服务器到其环空间中前一台服务器（即沿着逆时针方向行走遇到的第一台服务器）之间数据，其它不会受到影响

下面考虑另外一种情况，如果在系统中增加一台服务器Node X。如果增加一台服务器，则受影响的数据仅仅是新服务器到其环空间中前一台服务器（即沿着逆时针方向行走遇到的第一台服务器）之间的数据，其它数据也不会受到影响

综上所述，一致性哈希算法对于节点的增减都只需重定位环空间中的一小部分数据，具有较好的容错性和可扩展性

虚拟节点

另外，一致性哈希算法在服务节点太少时，容易因为节点分部不均匀而造成数据倾斜问题。例如系统中只有两台服务器，且由于hash算法导致在环上面分布的过于接近。此时必然造成大量数据集中到某一节点上，而只有极少数会定位到另一节点上

为了解决数据倾斜问题，一致性哈希算法引入了虚拟节点机制，即对每一个服务节点计算多个哈希，每个计算结果都放置一个服务节点，称为虚拟节点。具体做法可以在服务器ip或主机名的后面增加编号来实现。例如，可以为每台服务器计算三个虚拟节点，于是可以分别计算 “Node A#1”、“Node A#2”、“Node A#3”、“Node B#1”、“Node B#2”、“Node B#3”的哈希值，于是形成六个虚拟节点：

同时数据定位算法不变，只是多了一步虚拟节点到实际节点的映射，例如定位到“Node A#1”、“Node A#2”、“Node A#3”三个虚拟节点的数据均定位到Node A上。这样就解决了服务节点少时数据倾斜的问题。在实际应用中，通常将虚拟节点数设置为32甚至更大，因此即使很少的服务节点也能做到相对均匀的数据分布

算法实现

不带虚拟节点的

/**
 * 不带虚拟节点的一致性Hash算法
 * 重点：1.如何造一个hash环，2.如何在哈希环上映射服务器节点，3.如何找到对应的节点
 */
public class ConsistentHashingWithoutVirtualNode {

  // 待添加入Hash环的服务器列表
  private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111",
                                     "192.168.0.2:111", "192.168.0.3:111", "192.168.0.4:111"};

  // key表示服务器的hash值，value表示服务器
  private static SortedMap<Integer, String> sortedMap = new TreeMap<>();

  // 程序初始化，将所有的服务器放入sortedMap中
  static {
    for (String server : servers) {
      int hash = getHash(server);
      System.out.println("[" + server + "]加入集合中, 其Hash值为" + hash);
      sortedMap.put(hash, server);
    }
  }

  // 得到应当路由到的结点
  private static String getServer(String key) {
    // 得到该key的hash值
    int hash = getHash(key);
    // 得到大于该Hash值的所有Map
    SortedMap<Integer, String> subMap = sortedMap.tailMap(hash)
    return subMap.isEmpty() ? sortedMap.values().iterator().next() : subMap.values().iterator().next();
  }

  // 使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法，最终效果没区别
  private static int getHash(String str) {
    final int p = 16777619;
    int hash = (int) 2166136261L;
    for (int i = 0; i < str.length(); i++)
      hash = (hash ^ str.charAt(i)) * p;
    hash += hash << 13;
    hash ^= hash >> 7;
    hash += hash << 3;
    hash ^= hash >> 17;
    hash += hash << 5;

    // 如果算出来的值为负数则取其绝对值  
    return Math.abs(hash);
  }

  public static void main(String[] args) {
    String[] keys = {"太阳", "月亮", "星星"};
    for (String key : keys) {
      System.out.println("[" + key + "]的hash值为" + getHash(key) + ", 被路由到结点[" + getServer(key) + "]");
    }
  }
}

带虚拟节点的

/**
 * 带虚拟节点的一致性Hash算法
 */
public class ConsistentHashingWithVirtualNode {
  // 待添加入Hash环的服务器列表
  private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111", "192.168.0.3:111", "192.168.0.4:111"};

  // 真实结点列表,考虑到服务器上线、下线的场景，即添加、删除的场景会比较频繁，这里使用LinkedList会更好
  private static List<String> realNodes = new LinkedList<>();

  // 虚拟节点，key表示虚拟节点的hash值，value表示虚拟节点的名称
  private static SortedMap<Integer, String> virtualNodes = new TreeMap<>();

  // 虚拟节点的数目，这里写死，为了演示需要，一个真实结点对应5个虚拟节点
  private static final int VIRTUAL_NODES = 5;

  static {
    // 先把原始的服务器添加到真实结点列表中
    Arrays.asList(servers).forEach(realNodes::add);

    // 再添加虚拟节点，遍历LinkedList使用foreach循环效率会比较高
    for (String str : realNodes) {
      for (int i = 0; i < VIRTUAL_NODES; i++) {
        String virtualNodeName = str + "&&VN" + i;
        int hash = getHash(virtualNodeName);
        System.out.println("虚拟节点[" + virtualNodeName + "]被添加, hash值为" + hash);
        virtualNodes.put(hash, virtualNodeName);
      }
    }
  }

  // 使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法，最终效果没区别
  private static int getHash(String str) {
    final int p = 16777619;
    int hash = (int) 2166136261L;
    for (int i = 0; i < str.length(); i++)
      hash = (hash ^ str.charAt(i)) * p;
    hash += hash << 13;
    hash ^= hash >> 7;
    hash += hash << 3;
    hash ^= hash >> 17;
    hash += hash << 5;

    // 如果算出来的值为负数则取其绝对值
    return Math.abs(hash);
  }

  // 得到应当路由到的结点
  private static String getServer(String key) {
    // 得到该key的hash值
    int hash = getHash(key);
    // 得到大于该Hash值的所有Map
    SortedMap<Integer, String> subMap = virtualNodes.tailMap(hash);
    String virtualNode = subMap.isEmpty() ? virtualNodes.values().iterator().next() : subMap.values().iterator().next();
    //virtualNode虚拟节点名称要截取一下
    // if (StringUtils.isNotBlank(virtualNode)) {
    //     return virtualNode.substring(0, virtualNode.indexOf("&&"));
    // }
    // return null;
    // OptionalFilter是我自行封装的一个工具类  https://blog.youkuaiyun.com/weixin_43476471/article/details/114480099
    return OptionalFilter.ofNullable(virtualNode, StringUtils::isNotBlank).ifPresent(node -> node.substring(0, node.indexOf("&&")));
  }

  public static void main(String[] args) {
    String[] keys = {"太阳", "月亮", "星星"};
    for (String key : keys) {
      System.out.println("[" + key + "]的hash值为" + getHash(key)
                         + ", 被路由到结点[" + getServer(key) + "]");
    }
  }
}