- 博客(7)
- 收藏
- 关注
原创 Flink SQL
在flink 的流处理中,使用distinct,flink需要将之前的数据保存在状态中,如果数据一直增加,状态会越来越大。两个表在join时只关联一段时间内的数据,之前的数据就不需要保存在状态中,可以避免状态无限增大。开启微批处理和预聚合,可以减少shuffle过程中传输的数据量,减轻下游算子计算的压力。反压:下游消费数据的速度比上游生成数据的速度小时会出现反压,下游导致上游task反压。提示执行,在flink中可以用于动态修改表的属性,在spark中可以用于广播表。
2023-12-07 19:09:54
1080
1
原创 python 学习笔记
Python是一门print (默认sep=" ",end = "\n")可以通过sep指定分隔符,end控制格式是否空格或者换行。
2023-10-25 09:39:21
52
1
原创 初识Hadoop(一)
Hadoop初识学习要求: 1、知道框架的作用 2、明白框架的组成 应用-> 组件-> 进程 3、熟悉API以及命令 4、会自我进行原理的描述 5、会根据所学知识提出优化 6、整理知识点:框架+笔记 大数据的概念大数据指高速 (Velocity) 涌现的大量 (Volume) 多样化 (Variety) 具有一定价值( Value )并且真实( veracity )的数据,其特性可简单概括为 5V高速 :数据产生的速度较快 ,其数据产生的速度,是单台机器无法承载的大量:数据经过一段时间积累,数
2023-09-20 11:29:43
83
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人