
笔记
文章平均质量分 91
dogedong
这个作者很懒,什么都没留下…
展开
-
day28_大数据第一阶段总结(一)
一、java基础 (一)java语言开发环境 *java语言是半编译、半解释型的语言 编译型语言:源代码不能立刻执行要先编译成CPU可以直接执行的内容。C语言 解释型语言:源代码不能立刻执行,但不需要经过编译,需要一个解释器直接解释源代码来执行。PYTHON 半编译半解释语言:不能直接执行,要结果编译器编译,但编译后文件不能直接执行,还需要一个解释器来解释编译后的文件。JAVA的解释器就是JVM. 1、JVM java虚拟机,运行所有java程序的假想计算机,java程序的运行环境。 2、J原创 2021-08-16 00:05:31 · 214 阅读 · 0 评论 -
Spark阶段总结
kafka消费数据 同一时刻,kafka当中数据只能被一个消费者组下面的一个消费者所消费。 kafka消费者在消费数据的时候,都是分组别的。不同组的消费不受影响,相同组内的消费,需要注意,如果partition有3个,消费者有3个,那么便是每一个消费者消费其中一个partition对应的数据;如果有2个消费者,此时一个消费者消费其中一个partition数据,另一个消费者消费2个partition的数据。如果有超过3个的消费者,同一时间只能最多有3个消费者能消费得到数据, kaf.原创 2021-11-17 23:50:41 · 2177 阅读 · 0 评论 -
Flink阶段总结
Flink总结 TaskManager和Slots Task Slot 是静态的概念,是指 TaskManager 具有的并发执行能力,可以通过 参数 taskmanager.numberOfTaskSlots 进行配置,而并行度 parallelism 是动态概念, 即 TaskManager 运行程序时实际使用的并发能力,可以通过参数 parallelism.default 进行配置。 Dataflow Flink 程序由 Source、Transforma...原创 2021-11-19 17:18:46 · 1141 阅读 · 0 评论 -
Spark笔记
Spark基础核心知识 什么是RDD?RDD有什么特点?能否携带数据? RDD:叫做弹性分布式数据集 特点:不可变,可分区,里面的元素可以并行计算的集合。 不能携带数据,类似于java当中的接口,携带的是元数据。 依赖关系 窄依赖:父RDD的一个分区只能被子RDD的一个分区所依赖=》独生子女 宽依赖:父RDD的一个分区会被子RDD的多个分区所依赖=》超生子女 分区方式 非key,value对的数据,分区方式为None; Key,value对的数据,默认分区方式也为None,但是,可以指定分..原创 2021-10-19 09:05:43 · 174 阅读 · 0 评论