- 博客(8)
- 收藏
- 关注
原创 hive的几种调优
1.根据场景使用分区表或者分桶表2.使用列式存储文件格式(orc parquet)3.没有上线使用的时候使用本地测试模式 set mapreduce.framework.name=local4.合理的设置maptask和reducetask的个数5.避免写select * from6.如果内存充足,使用with x as()7.使用left semi join 代替 select from in8.使用group by 聚合 替代 count(distinct(name))9
2022-04-06 23:11:35
1815
原创 flink的watermarker理解
watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用watermark机制结合window来实现。我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、背压等原因,导致乱序的产生(out-of-order或者说late element)。但是对于late element,我们又不能无限期的等下去,必须要有个机制来保证一个特定的时间后,必须触发wi
2022-04-02 21:25:02
1622
原创 kafkaSink实现ExactlyOnec的过程
FlinkKafkaProdecer继承TwoPhaseCommitSinkFunction(分两个阶段提交sink),TwoPhaseCommitSinkFunction实现了连接的接口CheclpointedFunction和CheckpointListener实现CheckpointedFunction接口要实现initializeState和snapshosState方法实现CheckpointListener接口要实现notifyCheckpointComplete和notifyChe
2022-04-01 20:57:10
1934
原创 大数据之clickHouse
简介ClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System) , 主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。 ClickHouse的全称是Click Stream,Data WareHouse,简称ClickHouseClickHouse是一个完全的列式分布式数据库管理系统(DBMS),允许
2022-03-31 21:58:58
731
原创 flink的背压机制
话不多说,直接上图背压,归根结底就是为了让实施消费的数据和处理的数据达到动态的平衡,让资源利用率达到最高。当前Task处理数据的速度比较慢,比如每条数据都要进行算法调用之类的,而上游Task处理数据较快,从而导致上游发送端申请不到足够的内存,就会造成背压问题。flink的背压特性是逐渐反向背压,从下游的算子开始逐渐排查是哪个算子处理数据处理不过来了。然后上游减缓发送速度。当fink自动逐级背压处理不过来的时候就需要人为手动来干预了。...
2022-03-30 20:11:38
2051
原创 Flink几个关键知识点
mapstate底层结构package com.doit.flink.day06;/** * @Date 2022/2/20 15:52 * @Created by JIA * @Description */import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.
2022-03-29 21:44:34
543
原创 Flink 的 Exactly Once 和 At Least Once
exactly-once:即使producer重试发送消息,消息也会保证最多一次地传递给最终consumer。该语义是最理想的,但也难以实现,这是因为它需要消息系统本身与生产和消费消息的应用程序进行协作。例如如果在消费消息成功后,将Kafka consumer的偏移量rollback,我们将会再次从该偏移量开始接收消息。这表明消息传递系统和客户端应用程序必须配合调整才能实现excactly-once at-least-once:如果producer收到来自Kafka broker的确认(ack)或者ack
2022-03-28 18:52:27
2133
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人