Clickhouse (四)

本文介绍了ClickHouse中的两种特殊引擎:ReplacingMergeTree用于保证最终一致性并处理重复数据,而SummingMergeTree专为汇总聚合设计,节省空间和查询成本。两者在去重时机、聚合规则和适用场景上有所区别。

一.ReplacingMergeTree  (他能保证最终的一致性)

ReplacingMergeTree 是 MergeTree的一个变种, 它存储特性完全继承MergeTree,只是多了一个去重的功能,尽管MergeTree 可以设置主键,但是 primary key 其实没有唯一约束的功能,如果你想要处理掉重复的数据,可以借助这个 ReplacingMergeTree

去重的时机:

数据的去重只会在合并的过程中出现,合并会在未知的时间在后台进行,所有你无法预测先做出计划,有一些数据可以仍未被处理

去重范围:

如果表经过了分区,去重只会在分区内部进行去重,不能执行跨分区的去重

所有ReplacingMergeTree能力有限,ReplacingMergeTree适用于在后台清除重复

建表语句:

create table t_order_rmt(

id UInt32,

sku_id String,

total_amount Decimal(16,2),

create_time Datetime

) engine = ReplacingMergeTree(create_time)

========================================================

ReplacingMergeTree 填入的参数为版本字段,重复的数据保留版本字段值最大的

这里可以不填,如果不填,默认按照插入的顺序保留最好一条数据

=========================================================

partition by toYYYYMMDD(create_time)

primary key (id)

order by (id,sku_id);

插入数据:

结果:

然后我们二次插入数据:

我们可以看到有两条重复的数据,当我们再查看这张表的时候:

这里它们都存在不同的分区这里就是我们上面所说的去重时机

然后我们手动合并一次:

通过这次测试我们可以得到结论:

1.去重并不能跨分区 

2.只有合并分区才会进行去重

3.认定重复的数据保存,版本字段值最大的保留

4.如果版本字段相同则按插入顺序保留最后一次的数据

二.SummingMergeTree

  对于不查询明细,只关心以维度进行汇总聚合结果的场景,如果只使用普通的MergeTree的话.无论是存储空间的开销,还是查询时临时聚合的开销都比较大.

ClickHouse 为了这种场景,提供了一种能够"预聚合"的引擎 SummingMergeTree

它时分区内聚合和分片合并时才会聚合

建表语句:

create table t_order_smt(

id UInt32,

sku_id String,

total_amount Decimal(16,2),

create_time Datetime

) engine = SummingMergeTree(total_amount)

=========================================================================

SummingMergeTree 后填写的时聚合字段,可以多填,它会根据order by 为依据进行聚合

=========================================================================

partition by toYYYYMMDD(create_time)

primary key (id)

order by (id,sku_id);

插入数据:

结果:

通过结果我们可以得到一下结论:

1.以 SummingMergeTree 中指定的列作为汇总数据列

2.可以填写多列,但需要注意必须是数字列,如果不填,以所有非维度列且数字列的字段为汇总数据列

3.以order by 的列为准,作为维度列

4.其他的列插入顺序保留第一行

5.不在一个分区的数据不会被聚合

6.只有在同一批次插入或分片合并时才会进行聚合

根据第6点也有了一个注意点 在查询的时候如果多次插入了数据 我们并不能直接进行全表查询 因为可以会包含一些还没有来的及聚合的临时明细数据 这里我们再插入一次数据进行展示:

所有我们需要在查询前进行一次手动的合并,当然我们最好还是在查询的时候使用sum进行一次聚合,这样效率会有一定的提高,

这里我们学习完两个表引擎以后我们得到一下结论:

eplacingMergeTree 优点:

      它能保证数据最终的一致性

  缺点:

     如果不是同一批次插入的 差的时候没有进行合并的时候 数据是存到重复的

SummingMergeTree 优缺点:

  聚合查询的时候使用十分具有优势  但是它不能保证数据的幂等性 ;

所有我们在后续使用的时候要慎重选择,按当时的使用场景选择真正需要的一个!


 

数据集介绍:垃圾分类检测数据集 一、基础信息 数据集名称:垃圾分类检测数据集 图片数量: 训练集:2,817张图片 验证集:621张图片 测试集:317张图片 总计:3,755张图片 分类类别: - 金属:常见的金属垃圾材料。 - 纸板:纸板类垃圾,如包装盒等。 - 塑料:塑料类垃圾,如瓶子、容器等。 标注格式: YOLO格式,包含边界框和类别标签,适用于目标检测任务。 数据格式:图片来源于实际场景,格式为常见图像格式(如JPEG/PNG)。 二、适用场景 智能垃圾回收系统开发: 数据集支持目标检测任务,帮助构建能够自动识别和分类垃圾材料的AI模型,用于自动化废物分类和回收系统。 环境监测与废物管理: 集成至监控系统或机器人中,实时检测垃圾并分类,提升废物处理效率和环保水平。 学术研究与教育: 支持计算机视觉与环保领域的交叉研究,用于教学、实验和论文发表。 三、数据集优势 类别覆盖全面: 包含三种常见垃圾材料类别,覆盖日常生活中主要的可回收物类型,具有实际应用价值。 标注精准可靠: 采用YOLO标注格式,边界框定位精确,类别标签准确,便于模型直接训练和使用。 数据量适中合理: 训练集、验证集和测试集分布均衡,提供足够样本用于模型学习和评估。 任务适配性强: 标注兼容主流深度学习框架(如YOLO等),可直接用于目标检测任务,支持垃圾检测相关应用。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值