相同主键数据自动分区处理方法

49 篇文章 ¥59.90 ¥99.00
本文介绍了如何结合Debezium和Apache Kafka Streams来自动处理具有相同主键的数据,将其分配到相同的分区。首先配置Debezium监视数据库变化并将数据发布到Kafka,然后利用Kafka Streams根据主键进行分组和分区,提高数据处理效率和查询便利性。

在数据处理和分析中,处理具有相同主键的数据是一项常见任务。本文介绍了一种通过使用Debezium和分区技术来自动将具有相同主键的数据分配到相同分区的方法。我们将展示如何配置Debezium和使用Apache Kafka Streams来实现这一目标。

首先,我们需要设置Debezium来监视数据库中的更改并将其发布到Apache Kafka。假设我们监视的是一个名为"orders"的表,该表包含了具有主键字段"order_id"的订单数据。以下是一个配置文件的示例,用于设置Debezium连接到数据库并监视"orders"表:

name=debezium-mysql-connector
connector.class=io.debezium.connector.mysql.MySqlConnector
database.hostname=localhost
database.port=3306
database.user=your_username
database.password=your_password
database.server.id=1
database.server.name=mydb
database.whitelist=mydb
table.whitelist=mydb.orders

在上述配置中,我们指定了数据库的连接信息、监视的数据库和表,以及Debezium的连接器类。

接下来,我们需要使用Apache Kafka Streams来处理从Debezium接收到的更改事件,并根据主键将它们分配到不同的分区。以下是一个示例代码,展示了如何使用Kafka Streams来实现这一目

根据原作 https://pan.quark.cn/s/459657bcfd45 的源码改编 Classic-ML-Methods-Algo 引言 建立这个项目,是为了梳理和总结传统机器学习(Machine Learning)方法(methods)或者算法(algo),和各位同仁相互学习交流. 现在的深度学习本质上来自于传统的神经网络模型,很大程度上是传统机器学习的延续,同时也在不少时候需要结合传统方法来实现. 任何机器学习方法基本的流程结构都是通用的;使用的评价方法也基本通用;使用的一些数学知识也是通用的. 本文在梳理传统机器学习方法算法的同时也会顺便补充这些流程,数学上的知识以供参考. 机器学习 机器学习是人工智能(Artificial Intelligence)的一个分支,也是实现人工智能最重要的手段.区别于传统的基于规则(rule-based)的算法,机器学习可以从数据中获取知识,从而实现规定的任务[Ian Goodfellow and Yoshua Bengio and Aaron Courville的Deep Learning].这些知识可以分为四种: 总结(summarization) 预测(prediction) 估计(estimation) 假想验证(hypothesis testing) 机器学习主要关心的是预测[Varian在Big Data : New Tricks for Econometrics],预测的可以是连续性的输出变量,分类,聚类或者物品之间的有趣关联. 机器学习分类 根据数据配置(setting,是否有标签,可以是连续的也可以是离散的)和任务目标,我们可以将机器学习方法分为四种: 无监督(unsupervised) 训练数据没有给定...
这是一个非常重要且常见的误解:**在 Doris(包括 StarRocks)中,分区键和主键/唯一键并不强制要求相同或重叠**。 我们来详细澄清这个问题: --- ## ✅ 正确结论: > **分区键和主键(或 UNIQUE KEY)不需要相同,也不需要包含关系。Doris 允许分区字段不在主键中。** 这与某些数据库系统(如 TiDB 或 MySQL 的一些限制)不同。 --- ### 🔍 举个实际例子(合法且推荐): ```sql CREATE TABLE user_report ( id BIGINT, rl_id BIGINT, type INT, report_time DATETIME, data STRING, tenant_id INT, UNIQUE KEY(id) ) ENGINE=OLAP UNIQUE KEY(id) PARTITION BY RANGE(report_time) ( PARTITION p202401 VALUES LESS THAN ("2024-02-01"), PARTITION p202402 VALUES LESS THAN ("2024-03-01") ) DISTRIBUTED BY HASH(id) BUCKETS 10 PROPERTIES( "replication_num" = "1", "enable_unique_key_merge_on_write" = "true" ); ``` 在这个表中: - 主键是 `id` - 分区键是 `report_time` - 二者完全不同,但完全合法! ✅ 可以正常插入、更新、删除、按时间分区裁剪查询。 --- ## 📌 Doris 中的规则说明 | 特性 | 是否必须 | |------|----------| | 主键列是否必须包含分区列? | ❌ 否 | | 分区列是否可以不在主键中? | ✅ 是 | | 分区列是否可以是非主键字段? | ✅ 完全可以,比如 `report_time` | | 哈希分桶列是否必须是主键的一部分? | ❌ 不强制,但建议使用主键列(如 `id`)做分桶,提升点查效率 | > ⚠️ 注意:虽然语法允许,但如果分区键和主键毫无关联(比如按时间分区 + 按用户 ID 主键),需注意数据分布是否均匀、查询性能是否受影响。 --- ## 💡 为什么有人觉得“必须相同”? 可能源于以下几种误解: 1. **类比其他数据库** - 在 TiDB 或 InnoDB 中,如果要做二级索引分区,常要求主键包含分区键。 - 但在 Doris 这种 MPP 架构 OLAP 系统中,设计更灵活。 2. **早期版本文档不清晰** - Doris 早期版本对 Unique Key + 分区的支持较弱,容易出错。 - 新版本(1.2+ / 2.0+)已完善支持。 3. **建表失败误以为是键冲突** - 实际可能是 `VALUES LESS THAN` 时间格式不对、字段类型不匹配等导致建表失败,被误认为“分区键必须在主键中”。 --- ## ✅ 使用建议 尽管不要求一致,但从工程实践角度,你可以这样设计: | 场景 | 推荐策略 | |------|---------| | 高频按 ID 更新 + 按时间管理生命周期 | ✅ 主键=`id`,分区=`report_time` → 最佳组合 | | 多租户系统 | 主键=`(tenant_id, id)`,分区=`report_time` → 更安全 | | 查询常带时间条件 | 分区键用时间字段,提高查询剪枝效率 | | 数据过期管理 | 必须用时间字段分区,才能快速 `DROP PARTITION` | --- ## ✅ 如何验证? 你可以执行如下命令查看表结构: ```sql SHOW CREATE TABLE user_report; ``` 输出会显示: - `UNIQUE KEY (id)` - `PARTITION BY RANGE(report_time)` 只要能成功建表并插入数据,就说明这种组合是被支持的。 --- ## 🛠️ 动态分区示例(自动按月分区) ```sql ALTER TABLE user_report SET ( "dynamic_partition.enable" = "true", "dynamic_partition.time_unit" = "MONTH", "dynamic_partition.start" = "-24", "dynamic_partition.end" = "3", "dynamic_partition.prefix" = "p", "dynamic_partition.buckets" = "10" ); ``` 这个功能也完全支持非主键字段作为分区键。 --- ### ✅ 总结 > ❗ 分区键和主键 **不需要相同**,Doris 支持将 `report_time` 作为分区键,同时以 `id` 作为主键,两者可以完全独立。 这是完全可行且推荐的做法,尤其适用于: - 时间序列数据 - 需要 TTL 管理 - 高频按 ID 更新 只要你启用了 `enable_unique_key_merge_on_write=true`,就可以实现高效更新 + 时间分区双重能力。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值