- 博客(33)
- 收藏
- 关注
原创 flink 核心概念(个人总结)
状态:在处理数据时,flink可以维护状态,这对于实现复杂逻辑如窗口操作和聚合是有必要的。flink支持有状态的流处理,它可以存储和访问数据流处理过程中的状态信息。窗口是处理无界数据流的一种方法,它将数据流切分成有限大小的块进行处理。b.有界数据流:有明确开始和结束点的数据流,例如批量处理的历史数据。flink将数据视为流,无论是实时的无界数据流还是有界的数据流。1.滚动窗口:固定大小的窗口,当新的事件到达时,窗口会向前滚动。a.无界数据流:实时生成的数据流,没有结束点,例如实时交易数据。
2024-08-26 16:53:04
1040
原创 spark全面个人总结(20个面试点)非网文 持续更新中
Spark streaming 是spark用于处理实时数据流的组件,它允许你将实时数据流分割成一系列小的批处理,然后在每个微批上运行你的处理逻辑。根据分区策略,每个执行器将数据按照键分组,并发送到相应的目标分区,对每个执行器内部的数据根据键进行排序,写入磁盘,任务调度,决定哪些任务需要拉取哪些shuffle文件,数据拉取、数据合并、数据读取。spark分区是根本设置的分区策略进行分区的,分区策略有hash分区、range分区(按照指定键值的范围来划分分区)、自定义分区。请详细解释它们之间的区别。
2024-08-22 14:26:16
569
原创 大数据专题总结(四)大数据组件
kylin:一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据。Hive:数据仓库工具,将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本篇文章会基于大数据开发过程中常见的组件从组件定义和功能做介绍。spark:计算引擎,可用于SQL 查询、文本处理、机器学习。yarn:资源调度平台,资源调度管理。Zookeeper:分布式协调服务。大数据无非就是 资源调度和计算。Hdfs:存储,分布式文件系统。
2024-06-12 10:52:15
368
原创 大数据专题总结(三)大数据存储
b.非关系型数据库,不使用传统的关系型表格机构进行数据存储的数据库。非关系型数据库使用键值对、文档、列族或图形等不同的数据模型来组织数据。这里的hbase比较特殊,hbase是建立在hdfs之上的列式存储数据库;适用于大规模结构化数据存储和处理。a.关系型数据库,其中数据是以表格的形式组织,表格由行和列组成。使用结构化查询语言进行数据操作和查询。a. 键值存储数据库:Redis、Riak。在数据库中可以按照数据的组织方式进行分类。既适用于结构化数据,也适用于非结构化数据。适用于半结构化数据和非结构化数据。
2024-02-04 14:13:58
571
原创 大数据专题总结(二)sql优化总结
map——>shuffle——>reduce,如果我们采用普通的common join,那么就一定会发生shuffle,如果我们采用map join,也就是把小表直接打包发送到map的所有节点上去做join,就不会出现shuffle,reduce join了,这时候也不会存在数据倾斜。eg,有一个作业,30亿的表和两个6亿的中小表做left join,时长2小时,直接中小表先关联,再和30亿的大表做关联,时长降到1小时了。(场景常常出现在明细表关联维表,并且明细表的关联键分布不均,产生倾斜的情况)
2023-12-02 15:51:48
447
原创 大数据专题总结(一)spark详细总结(非网文,通俗归纳)
在每个Worker上为某应用启动的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个任务都有各自独立的Executor。JOB: 一个行动算子就算一个Job,可以理解为我们的程序里面遇到了行动算子,整个代码才会run起来。stage是按照rdd的宽窄依赖进行划分的。RDD: 弹性分布式数据集,里面会存放分区数据以及数据计算逻辑,但并不会存放真正的。TASK: 最小的工作单元,它带着分区数据以及计算逻辑被送到计算节点上去。一个job的stage之间是并行的。
2023-11-29 22:59:22
591
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人