各中间件分片策略详解

主流中间件分片策略解析

原创于 2025-12-05 23:02:36 发布 · 420 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#中间件 #分片

Architect 同时被 2 个专栏收录

12 篇文章

订阅专栏

Middleware

5 篇文章

订阅专栏

各中间件分片策略详解

概述

分片（Sharding）是一种将大数据集分布到多个节点上的技术，通过将数据水平分割到不同的分片上来实现系统的横向扩展。不同的中间件系统根据其特性和使用场景，采用了不同的分片策略。

分片的基本概念

分片键（Shard Key）：用于确定数据应该存储在哪个分片的字段
分片策略（Sharding Strategy）：决定数据如何分布到不同分片的算法
分片元数据（Sharding Metadata）：记录分片分布和路由信息的元数据
重分片（Resharding）：重新调整数据分布的过程

数据库分片策略

MySQL 分片策略

1. 基于范围的分片（Range-based Sharding）

原理：根据分片键的值范围将数据分配到不同的分片。

-- 示例：按用户ID范围分片
Shard 1: user_id 1-1000000
Shard 2: user_id 1000001-2000000
Shard 3: user_id 2000001-3000000

优点：

实现简单，易于理解
范围查询效率高
支持顺序扫描

缺点：

容易产生热点问题
数据分布可能不均匀
扩展性有限

适用场景：

时间序列数据
有序ID数据
日志数据

2. 基于哈希的分片（Hash-based Sharding）

原理：使用哈希函数将分片键映射到分片。

-- 示例：一致性哈希分片
shard = hash(user_id) % shard_count

优点：

数据分布均匀
避免热点问题
扩展性好

缺点：

范围查询效率低
需要扫描所有分片
难以做范围聚合

适用场景：

用户数据
交易数据
需要均匀分布的场景

3. 基于目录的分片（Directory-based Sharding）

原理：使用查找表来维护分片键到分片的映射关系。

-- 分片目录表
CREATE TABLE shard_directory (
    shard_key VARCHAR(50) PRIMARY KEY,
    shard_id INT NOT NULL,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

优点：

灵活性高
支持复杂分片规则
可以动态调整

缺点：

需要维护目录表
存在单点故障风险
查询需要额外开销

适用场景：

地理分区
业务规则复杂的场景
需要频繁调整分片的场景

PostgreSQL 分片策略

1. 原生分区表（Native Partitioning）

PostgreSQL 10+ 支持原生分区：

-- 创建分区表
CREATE TABLE orders (
    order_id BIGINT,
    customer_id INT,
    order_date DATE,
    amount DECIMAL(10,2)
) PARTITION BY RANGE (order_date);

-- 创建分区
CREATE TABLE orders_2024_q1 PARTITION OF orders
FOR VALUES FROM ('2024-01-01') TO ('2024-04-01');

CREATE TABLE orders_2024_q2 PARTITION OF orders
FOR VALUES FROM ('2024-04-01') TO ('2024-07-01');

2. Citus 分布式扩展

Citus 提供了更强大的分布式功能：

-- 创建分布式表
SELECT create_distributed_table('orders', 'customer_id');

-- 创建引用表
SELECT create_reference_table('customers');

MongoDB 分片策略

1. 范围分片（Ranged Sharding）

// 启用分片
sh.enableSharding("mydb")

// 创建范围分片
sh.shardCollection("mydb.orders", {orderDate: 1})

2. 哈希分片（Hashed Sharding）

// 创建哈希分片
sh.shardCollection("mydb.users", {userId: "hashed"})

3. 区域分片（Zone Sharding）

// 定义区域
sh.addShardTag("shard0000", "NA")
sh.addShardTag("shard0001", "EU")

// 关联区域范围
sh.addTagRange(
    "mydb.users",
    {region: "NA", userId: MinKey},
    {region: "NA", userId: MaxKey},
    "NA"
)

消息队列分片策略

Apache Kafka 分片策略

1. 分区机制（Partitioning）

Kafka 的核心概念就是分区，每个主题可以分为多个分区：

// 生产者分区策略
Properties props = new Properties();
props.put("partitioner.class", "com.example.CustomPartitioner");

// 自定义分区器
public class CustomPartitioner implements Partitioner {
    @Override
    public int partition(String topic, Object key, byte[] keyBytes, 
                        Object value, byte[] valueBytes, Cluster cluster) {
        int numPartitions = cluster.partitionCountForTopic(topic);
        return Math.abs(key.hashCode()) % numPartitions;
    }
}

分区策略类型：

轮询分区（Round-robin）：均匀分布消息
按键分区（Key-based）：相同key的消息到同一分区
自定义分区（Custom）：根据业务逻辑自定义

2. 消费者组分区分配

// 消费者配置
Properties props = new Properties();
props.put("group.id", "consumer-group-1");
props.put("partition.assignment.strategy", 
    "org.apache.kafka.clients.consumer.RangeAssignor");

分配策略：

Range分配：按分区范围分配
RoundRobin分配：轮询分配
Sticky分配：尽量保持原有分配

RabbitMQ 分片策略

1. 队列分片（Queue Sharding）

RabbitMQ 通过插件支持队列分片：

% 启用分片插件
rabbitmq-plugins enable rabbitmq_sharding

% 配置分片策略
rabbitmqctl set_policy shard-me 
    "^sharded\." 
    '{"shards-per-node": 2, "routing-key": "123"}'

2. 一致性哈希交换器

# 声明一致性哈希交换器
channel.exchange_declare(
    exchange='hash-exchange',
    exchange_type='x-consistent-hash'
)

# 绑定队列
channel.queue_bind(
    exchange='hash-exchange',
    queue='queue-1',
    routing_key='1'
)

Apache Pulsar 分片策略

1. 分区主题（Partitioned Topics）

// 创建分区主题
admin.topics().createPartitionedTopic(
    "persistent://tenant/namespace/topic", 
    10
);

// 生产者路由模式
Producer<byte[]> producer = client.newProducer()
    .topic("persistent://tenant/namespace/topic")
    .messageRoutingMode(MessageRoutingMode.RoundRobinPartition)
    .create();

路由模式：

RoundRobinPartition：轮询选择分区
SinglePartition：只使用一个分区
CustomPartition：自定义分区策略

缓存分片策略

Redis 分片策略

1. Redis Cluster 分片

Redis Cluster 使用哈希槽（Hash Slot）机制：

// 哈希槽计算
slot = CRC16(key) % 16384

// 集群配置
redis-cli --cluster create \
  127.0.0.1:7000 127.0.0.1:7001 \
  127.0.0.1:7002 127.0.0.1:7003 \
  127.0.0.1:7004 127.0.0.1:7005 \
  --cluster-replicas 1

特点：

16384个哈希槽
自动故障转移
支持在线重分片

2. 客户端分片（Client-side Sharding）

// Jedis 客户端分片
List<JedisShardInfo> shards = Arrays.asList(
    new JedisShardInfo("localhost", 6379),
    new JedisShardInfo("localhost", 6380),
    new JedisShardInfo("localhost", 6381)
);

ShardedJedis shardedJedis = new ShardedJedis(shards);

3. 代理分片（Proxy-based Sharding）

使用 Twemproxy、Codis 等代理：

# Twemproxy 配置
alpha:
  listen: 127.0.0.1:22121
  hash: fnv1a_64
  distribution: ketama
  auto_eject_hosts: true
  redis: true
  servers:
   - 127.0.0.1:6379:1
   - 127.0.0.1:6380:1
   - 127.0.0.1:6381:1

Memcached 分片策略

1. 一致性哈希分片

# Python 客户端示例
import memcache
mc = memcache.Client(['127.0.0.1:11211', '127.0.0.1:11212'], 
                     server_weights={0: 1, 1: 2})

分布式存储分片策略

HDFS 分片策略

1. 数据块分片

HDFS 默认使用 128MB 的数据块：

<!-- hdfs-site.xml 配置 -->
<property>
    <name>dfs.blocksize</name>
    <value>134217728</value>
</property>

<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>

分片考虑因素：

块大小设置
副本放置策略
机架感知

Ceph 分片策略

1. CRUSH 算法

Ceph 使用 CRUSH 算法进行数据分布：

// CRUSH 规则配置
rule replicated_rule {
    id 0
    type replicated
    min_size 1
    max_size 10
    step take default
    step chooseleaf firstn 0 type host
    step emit
}

特点：

伪随机分布
无需中心元数据
支持权重调整

Elasticsearch 分片策略

1. 索引分片

// 创建索引时设置分片
PUT /my_index
{
  "settings": {
    "number_of_shards": 5,
    "number_of_replicas": 1,
    "routing_partition_size": 2
  },
  "mappings": {
    "properties": {
      "user_id": {
        "type": "keyword"
      }
    }
  }
}

分片类型：

主分片（Primary Shard）：存储原始数据
副本分片（Replica Shard）：主分片的拷贝

2. 路由策略

// 自定义路由
PUT /my_index/_doc/1?routing=user123
{
  "title": "Document with custom routing"
}

// 搜索指定路由
GET /my_index/_search?routing=user123,user456
{
  "query": {
    "match": {
      "title": "document"
    }
  }
}

分片策略对比分析

分片策略对比表

中间件	分片方式	分片键	重分片	一致性	适用场景
MySQL	范围/哈希/目录	任意字段	手动	最终一致	关系型数据
MongoDB	范围/哈希/区域	任意字段	自动	最终一致	文档数据
Kafka	分区	消息键	手动	顺序一致	消息队列
RabbitMQ	队列分片	路由键	手动	最终一致	消息队列
Redis	哈希槽	键	自动	强一致	缓存
Elasticsearch	索引分片	路由键	手动	最终一致	搜索
HDFS	数据块	文件块	自动	强一致	文件存储