- 博客(19)
- 收藏
- 关注
原创 【Flink】水位线设置与窗口的合并
Flink 水位线时间语义事件时间:数据产生的时间处理时间:数据真正被处理的时刻一般情况下,业务日志数据中都会记录数据生成的时间戳(timestamp),它就可以作为事件时间的判断基础。Flink 将事件时间作为默认的时间语义。事件时间和窗口逻辑时钟:事件进展靠着数据记录的时间戳来推动,使计算过程完全不依赖处理时间(系统时间)水位线用来衡量事件时间进展的标记。有序流中的水位线理想状态下希望数据按生成顺序进入流中,每条数据产生一个水位线。在实际中,由于数据量非常大,为提高效率,每隔一段
2023-08-28 08:17:49
181
原创 【Flink】窗口的机制及相关实验
Flink作为流计算引擎,主要用来处理无界数据流。数据源源不断、无穷无尽。通过将无限数据切割成有限的“数据块”进行处理,就有“窗口”的概念。在Flink中,窗口可以把流切割成有限大小的多个“存储桶”,每个数据都会分发的对应的桶中。当到达窗口结束时间时,就会对每个桶中收集数据进行计算处理。窗口不是静态准备好的,是动态创建的——有数据到达时才会创建对应窗口。窗口结束时间时,窗口会触发计算并关闭。
2023-08-27 17:02:53
444
原创 【Flink】集群与部署
Flink中每一个TaskManager都是一个JVM进程,它可以启动多个独立的线程执行多个子任务。TaskManager包含了一定数量的Slots,Slot是资源调度的最小单位,Slot数量限制了TaskManager能够并行处理的任务数量。整个流处理程序的并行度是所有算子并行度最大的那个,这代表了应用程序需要的slot数量。只要属于同一作业,对不同任务节点(算子)的并行子任务,就可以放到同一个slot上执行。是Flink集群中任务管理和调度的核心,是控制应用执行的主进程。
2023-08-27 08:02:00
114
原创 【Kafka】消息的产生与消费
Kafka是一种高吞吐量的分布式发布订阅消息系统。相关概念:Broker:Kafka集群上的服务器Topic:发布到集群上的消息类别Partition:物理上的分区Producer:负责发布消息到集群Consumer:消息消费者。
2023-08-21 09:46:52
155
1
原创 【Spark】Spark Streaming 流计算
静态数据在企业中是用于支持决策分析构建数据仓库系统的历史数据,数据使用ETL加载到数据仓库中,且不会发生更新。流数据指的是时间分布和数量上无限的一系列动态数据集合体,数据记录是流数据的最小单元。特征如下:数据快速持续到达,潜在大小也许是无穷无尽的。数据来源多,格式复杂。数据量大,但不关注存储。=> 流数据某个元素经过处理要么被丢弃要么归档存储。关注整体价值而非个别数据。系统无法控制到达数据元素的顺序。批量计算:以静态数据为对象,在充裕时间内对海量数据批量处理。
2023-08-20 13:55:48
366
1
原创 【Spark】Spark SQL的原理及实操
Spark SQL在Hive兼容层面仅依赖于HiveQL解析和Hive原数据。通过使用DataFrame(带有Schema信息的RDD)使用户执行SQL语句。
2023-08-20 09:44:25
370
1
原创 【Spark】Spark框架RDD算子实操
项目名称:使用RDD算子在日志文件中找到不同省份的人对各城市关注度的排行实验时间:2023年8月18日实验地点:sict-reid。
2023-08-18 16:13:37
73
1
原创 【大数据存储系统】HDFS+HashJoin+HBase实验记录
大数据系统HDFS+HashJoin+HBase实验记录(中国科学院大学大数据系统与大规模数据分析课程作业)
2023-06-08 07:36:50
5164
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人