相同主键数据自动分区处理方法

49 篇文章 ¥59.90 ¥99.00
本文介绍了如何结合Debezium和Apache Kafka Streams来自动处理具有相同主键的数据,将其分配到相同的分区。首先配置Debezium监视数据库变化并将数据发布到Kafka,然后利用Kafka Streams根据主键进行分组和分区,提高数据处理效率和查询便利性。

在数据处理和分析中,处理具有相同主键的数据是一项常见任务。本文介绍了一种通过使用Debezium和分区技术来自动将具有相同主键的数据分配到相同分区的方法。我们将展示如何配置Debezium和使用Apache Kafka Streams来实现这一目标。

首先,我们需要设置Debezium来监视数据库中的更改并将其发布到Apache Kafka。假设我们监视的是一个名为"orders"的表,该表包含了具有主键字段"order_id"的订单数据。以下是一个配置文件的示例,用于设置Debezium连接到数据库并监视"orders"表:

name=debezium-mysql-connector
connector.class=io.debezium.connector.mysql.MySqlConnector
database.hostname=localhost
database.port=3306
database.user=your_username
database.password=your_password
database.server.id=1
database.server.name=mydb
database.whitelist=mydb
table.whitelist=mydb.orders

在上述配置中,我们指定了数据库的连接信息、监视的数据库和表,以及Debezium的连接器类。

接下来,我们需要使用Apache Kafka Streams来处理从Debezium接收到的更改事件,并根据主键将它们分配到不同的分区。以下是一个示例代码,展示了如何使用Kafka Streams来实现这一目

数据集通过合成方式模拟了多种发动机在运行过程中的传感器监测数据,旨在构建一个用于机械系统故障检测的基准资源,特别适用于汽车领域的诊断分析。数据按固定时间间隔采集,涵盖了发动机性能指标、异常状态以及工作模式等多维度信息。 时间戳:数据类型为日期时间,记录了每个数据点的采集时刻。序列起始于2024年12月24日10:00,并以5分钟为间隔持续生成,体现了对发动机运行状态的连续监测。 温度(摄氏度):以浮点数形式记录发动机的温度读数。其数值范围通常处于60至120摄氏度之间,反映了发动机在常规工况下的典型温度区间。 转速(转/分钟):以浮点数表示发动机曲轴的旋转速度。该参数在1000至4000转/分钟的范围内随机生成,符合多数发动机在正常运转时的转速特征。 燃油效率(公里/升):浮点型变量,用于衡量发动机的燃料利用效能,即每升燃料所能支持的行驶里程。其取值范围设定在15至30公里/升之间。 振动_X、振动_Y、振动_Z:这三个浮点数列分别记录了发动机在三维空间坐标系中各轴向的振动强度。测量值标准化至0到1的标度,较高的数值通常暗示存在异常振动,可能与潜在的机械故障相关。 扭矩(牛·米):以浮点数表征发动机输出的旋转力矩,数值区间为50至200牛·米,体现了发动机的负载能力。 功率输出(千瓦):浮点型变量,描述发动机单位时间内做功的速率,取值范围为20至100千瓦。 故障状态:整型分类变量,用于标识发动机的异常程度,共分为四个等级:0代表正常状态,1表示轻微故障,2对应中等故障,3指示严重故障。该列作为分类任务的目标变量,支持基于传感器数据预测故障等级。 运行模式:字符串类型变量,描述发动机当前的工作状态,主要包括:怠速(发动机运转但无负载)、巡航(发动机在常规负载下平稳运行)、重载(发动机承受高负荷或高压工况)。 数据集整体包含1000条记录,每条记录对应特定时刻的发动机性能快照。其中故障状态涵盖从正常到严重故障的四级分类,有助于训练模型实现故障预测与诊断。所有数据均为合成生成,旨在模拟真实的发动机性能变化与典型故障场景,所包含的温度、转速、燃油效率、振动、扭矩及功率输出等关键传感指标,均为影响发动机故障判定的重要因素。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
这是一个非常重要且常见的误解:**在 Doris(包括 StarRocks)中,分区键和主键/唯一键并不强制要求相同或重叠**。 我们来详细澄清这个问题: --- ## ✅ 正确结论: > **分区键和主键(或 UNIQUE KEY)不需要相同,也不需要包含关系。Doris 允许分区字段不在主键中。** 这与某些数据库系统(如 TiDB 或 MySQL 的一些限制)不同。 --- ### 🔍 举个实际例子(合法且推荐): ```sql CREATE TABLE user_report ( id BIGINT, rl_id BIGINT, type INT, report_time DATETIME, data STRING, tenant_id INT, UNIQUE KEY(id) ) ENGINE=OLAP UNIQUE KEY(id) PARTITION BY RANGE(report_time) ( PARTITION p202401 VALUES LESS THAN ("2024-02-01"), PARTITION p202402 VALUES LESS THAN ("2024-03-01") ) DISTRIBUTED BY HASH(id) BUCKETS 10 PROPERTIES( "replication_num" = "1", "enable_unique_key_merge_on_write" = "true" ); ``` 在这个表中: - 主键是 `id` - 分区键是 `report_time` - 二者完全不同,但完全合法! ✅ 可以正常插入、更新、删除、按时间分区裁剪查询。 --- ## 📌 Doris 中的规则说明 | 特性 | 是否必须 | |------|----------| | 主键列是否必须包含分区列? | ❌ 否 | | 分区列是否可以不在主键中? | ✅ 是 | | 分区列是否可以是非主键字段? | ✅ 完全可以,比如 `report_time` | | 哈希分桶列是否必须是主键的一部分? | ❌ 不强制,但建议使用主键列(如 `id`)做分桶,提升点查效率 | > ⚠️ 注意:虽然语法允许,但如果分区键和主键毫无关联(比如按时间分区 + 按用户 ID 主键),需注意数据分布是否均匀、查询性能是否受影响。 --- ## 💡 为什么有人觉得“必须相同”? 可能源于以下几种误解: 1. **类比其他数据库** - 在 TiDB 或 InnoDB 中,如果要做二级索引分区,常要求主键包含分区键。 - 但在 Doris 这种 MPP 架构 OLAP 系统中,设计更灵活。 2. **早期版本文档不清晰** - Doris 早期版本对 Unique Key + 分区的支持较弱,容易出错。 - 新版本(1.2+ / 2.0+)已完善支持。 3. **建表失败误以为是键冲突** - 实际可能是 `VALUES LESS THAN` 时间格式不对、字段类型不匹配等导致建表失败,被误认为“分区键必须在主键中”。 --- ## ✅ 使用建议 尽管不要求一致,但从工程实践角度,你可以这样设计: | 场景 | 推荐策略 | |------|---------| | 高频按 ID 更新 + 按时间管理生命周期 | ✅ 主键=`id`,分区=`report_time` → 最佳组合 | | 多租户系统 | 主键=`(tenant_id, id)`,分区=`report_time` → 更安全 | | 查询常带时间条件 | 分区键用时间字段,提高查询剪枝效率 | | 数据过期管理 | 必须用时间字段分区,才能快速 `DROP PARTITION` | --- ## ✅ 如何验证? 你可以执行如下命令查看表结构: ```sql SHOW CREATE TABLE user_report; ``` 输出会显示: - `UNIQUE KEY (id)` - `PARTITION BY RANGE(report_time)` 只要能成功建表并插入数据,就说明这种组合是被支持的。 --- ## 🛠️ 动态分区示例(自动按月分区) ```sql ALTER TABLE user_report SET ( "dynamic_partition.enable" = "true", "dynamic_partition.time_unit" = "MONTH", "dynamic_partition.start" = "-24", "dynamic_partition.end" = "3", "dynamic_partition.prefix" = "p", "dynamic_partition.buckets" = "10" ); ``` 这个功能也完全支持非主键字段作为分区键。 --- ### ✅ 总结 > ❗ 分区键和主键 **不需要相同**,Doris 支持将 `report_time` 作为分区键,同时以 `id` 作为主键,两者可以完全独立。 这是完全可行且推荐的做法,尤其适用于: - 时间序列数据 - 需要 TTL 管理 - 高频按 ID 更新 只要你启用了 `enable_unique_key_merge_on_write=true`,就可以实现高效更新 + 时间分区双重能力。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值