阿齐（努力打工版）-优快云博客

原创 flink 核心概念（个人总结）

状态：在处理数据时，flink可以维护状态，这对于实现复杂逻辑如窗口操作和聚合是有必要的。flink支持有状态的流处理，它可以存储和访问数据流处理过程中的状态信息。窗口是处理无界数据流的一种方法，它将数据流切分成有限大小的块进行处理。b.有界数据流：有明确开始和结束点的数据流，例如批量处理的历史数据。flink将数据视为流，无论是实时的无界数据流还是有界的数据流。1.滚动窗口：固定大小的窗口，当新的事件到达时，窗口会向前滚动。a.无界数据流：实时生成的数据流，没有结束点，例如实时交易数据。

2024-08-26 16:53:04 1040

原创 spark全面个人总结（20个面试点）非网文持续更新中

Spark streaming 是spark用于处理实时数据流的组件，它允许你将实时数据流分割成一系列小的批处理，然后在每个微批上运行你的处理逻辑。根据分区策略，每个执行器将数据按照键分组，并发送到相应的目标分区，对每个执行器内部的数据根据键进行排序，写入磁盘，任务调度，决定哪些任务需要拉取哪些shuffle文件，数据拉取、数据合并、数据读取。spark分区是根本设置的分区策略进行分区的，分区策略有hash分区、range分区(按照指定键值的范围来划分分区)、自定义分区。请详细解释它们之间的区别。

2024-08-22 14:26:16 569

原创大数据专题总结(四)大数据组件

kylin：一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据。Hive：数据仓库工具，将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。本篇文章会基于大数据开发过程中常见的组件从组件定义和功能做介绍。spark：计算引擎，可用于SQL 查询、文本处理、机器学习。yarn：资源调度平台，资源调度管理。Zookeeper：分布式协调服务。大数据无非就是资源调度和计算。Hdfs：存储，分布式文件系统。

2024-06-12 10:52:15 368

原创大数据专题总结(三)大数据存储

b.非关系型数据库，不使用传统的关系型表格机构进行数据存储的数据库。非关系型数据库使用键值对、文档、列族或图形等不同的数据模型来组织数据。这里的hbase比较特殊，hbase是建立在hdfs之上的列式存储数据库；适用于大规模结构化数据存储和处理。a.关系型数据库，其中数据是以表格的形式组织，表格由行和列组成。使用结构化查询语言进行数据操作和查询。a. 键值存储数据库：Redis、Riak。在数据库中可以按照数据的组织方式进行分类。既适用于结构化数据，也适用于非结构化数据。适用于半结构化数据和非结构化数据。

2024-02-04 14:13:58 571

原创大数据专题总结(二)sql优化总结

map——>shuffle——>reduce，如果我们采用普通的common join，那么就一定会发生shuffle，如果我们采用map join，也就是把小表直接打包发送到map的所有节点上去做join，就不会出现shuffle，reduce join了，这时候也不会存在数据倾斜。eg,有一个作业，30亿的表和两个6亿的中小表做left join，时长2小时，直接中小表先关联，再和30亿的大表做关联，时长降到1小时了。（场景常常出现在明细表关联维表，并且明细表的关联键分布不均，产生倾斜的情况）

2023-12-02 15:51:48 447

weixin_44702289的博客

原创 flink 核心概念（个人总结）

原创 spark全面个人总结（20个面试点）非网文持续更新中

原创大数据专题总结(四)大数据组件

原创大数据专题总结(三)大数据存储

原创大数据专题总结(二)sql优化总结

原创大数据专题总结(一)spark详细总结（非网文，通俗归纳）

原创大数据学习（三十六）拉链表原理以及构造方法

原创大数据学习（三十五）hive中大表join小表优化方法

原创大数据学习（三十三）一分钟了解hdfs（通俗易懂版）

原创大数据学习（三十二）一分钟了解spark（通俗易懂版）

原创大数据学习（三十一）数据仓库如何处理缓慢变化维

原创大数据学习（三十）JOIN过程中的mapreduce阶段

原创大数据学习（二十五）hive中的space函数

原创大数据学习（二十二）hive中sort by、cluster by、order by的区别

原创大数据学习（二十四）hive中explode的进阶函数posexplode

原创大数据学习（二十三）sql中的排序函数 row_number() 、rank() 、dense_rank()

原创大数据学习（二十）hive增量表和全量表的相互转换

原创大数据学习（十八）hive的窗口函数（含例子）

原创大数据学习（十六）容易踩坑的NULL值

原创大数据学习（十五）维度建模步骤以及实例

原创大数据学习（十三）hive正则表达式

原创大数据学习（十一）hive中获取数组中的元素

原创 python初学习（一）python烟花代码

原创大数据学习（十）hive函数split、explode、lateral view用法

原创大数据学习（九）hive中行转列列转行（都附带例子）

原创大数据学习（八）hive中JOIN执行过程

原创大数据学习（七）一分钟了解数据建模

原创大数据学习（六）ETL开发详解及实战

原创大数据学习（五）Mapreduce详解

原创大数据学习（四）一分钟明白hive数据倾斜

原创大数据学习（三）一分钟搞明白hive在底层是如何运作的

原创大数据学习（二）一分钟让你明白数据库和数据仓库

原创大数据（一）一分钟搞明白hive分区表、分桶表

空空如也

空空如也