自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 【Flink】容错机制

作用:保证故障后的恢复。最重要的是检查点。

2023-08-29 09:38:04 209

原创 【Flink】状态管理

算子任务分为有状态和无状态两种。

2023-08-29 07:50:10 144 1

原创 【Flink】处理函数的实现

在本部分中,针对自定义处理逻辑,通过“处理函数”接口,实现对转换算子的概括性表达。

2023-08-28 12:32:37 86

原创 【Flink】水位线设置与窗口的合并

Flink 水位线时间语义事件时间:数据产生的时间处理时间:数据真正被处理的时刻一般情况下,业务日志数据中都会记录数据生成的时间戳(timestamp),它就可以作为事件时间的判断基础。Flink 将事件时间作为默认的时间语义。事件时间和窗口逻辑时钟:事件进展靠着数据记录的时间戳来推动,使计算过程完全不依赖处理时间(系统时间)水位线用来衡量事件时间进展的标记。有序流中的水位线理想状态下希望数据按生成顺序进入流中,每条数据产生一个水位线。在实际中,由于数据量非常大,为提高效率,每隔一段

2023-08-28 08:17:49 181

原创 【Flink】窗口的机制及相关实验

Flink作为流计算引擎,主要用来处理无界数据流。数据源源不断、无穷无尽。通过将无限数据切割成有限的“数据块”进行处理,就有“窗口”的概念。在Flink中,窗口可以把流切割成有限大小的多个“存储桶”,每个数据都会分发的对应的桶中。当到达窗口结束时间时,就会对每个桶中收集数据进行计算处理。窗口不是静态准备好的,是动态创建的——有数据到达时才会创建对应窗口。窗口结束时间时,窗口会触发计算并关闭。

2023-08-27 17:02:53 444

原创 【Flink】算子总结

【代码】【Flink】算子总结。

2023-08-27 10:27:34 176

原创 【Flink】集群与部署

Flink中每一个TaskManager都是一个JVM进程,它可以启动多个独立的线程执行多个子任务。TaskManager包含了一定数量的Slots,Slot是资源调度的最小单位,Slot数量限制了TaskManager能够并行处理的任务数量。整个流处理程序的并行度是所有算子并行度最大的那个,这代表了应用程序需要的slot数量。只要属于同一作业,对不同任务节点(算子)的并行子任务,就可以放到同一个slot上执行。是Flink集群中任务管理和调度的核心,是控制应用执行的主进程。

2023-08-27 08:02:00 114

原创 【Spark】Spark MLlib 相关操作记录

MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等。

2023-08-22 19:43:29 148 1

原创 【Spark】 Spark Streaming的状态转换与输出

对每个分段的DStream数据的处理就是对DStream的转换操作。

2023-08-21 14:05:44 253 1

原创 【Kafka】消息的产生与消费

Kafka是一种高吞吐量的分布式发布订阅消息系统。相关概念:Broker:Kafka集群上的服务器Topic:发布到集群上的消息类别Partition:物理上的分区Producer:负责发布消息到集群Consumer:消息消费者。

2023-08-21 09:46:52 155 1

原创 【Spark】Spark Streaming 流计算

静态数据在企业中是用于支持决策分析构建数据仓库系统的历史数据,数据使用ETL加载到数据仓库中,且不会发生更新。流数据指的是时间分布和数量上无限的一系列动态数据集合体,数据记录是流数据的最小单元。特征如下:数据快速持续到达,潜在大小也许是无穷无尽的。数据来源多,格式复杂。数据量大,但不关注存储。=> 流数据某个元素经过处理要么被丢弃要么归档存储。关注整体价值而非个别数据。系统无法控制到达数据元素的顺序。批量计算:以静态数据为对象,在充裕时间内对海量数据批量处理。

2023-08-20 13:55:48 366 1

原创 【Spark】Spark SQL的原理及实操

Spark SQL在Hive兼容层面仅依赖于HiveQL解析和Hive原数据。通过使用DataFrame(带有Schema信息的RDD)使用户执行SQL语句。

2023-08-20 09:44:25 370 1

原创 【Spark】RDD编程初级实验记录(林子雨教材)

实验时间:2023年8月19日实验地点:sict-reid。

2023-08-19 15:57:51 495

原创 【Spark】Spark框架RDD算子实操

项目名称:使用RDD算子在日志文件中找到不同省份的人对各城市关注度的排行实验时间:2023年8月18日实验地点:sict-reid。

2023-08-18 16:13:37 73 1

原创 【Hadoop】使用Docker容器搭建伪分布式集群

使用Docker搭建Hadoop伪分布式集群

2023-07-17 09:05:10 857 1

原创 【智能计算系统】深度学习处理器设计实验

国科大智能计算系统深度学习处理器设计实验记录

2023-06-08 08:08:17 1488 3

原创 【大数据运算系统】SSSP实验记录

大数据运算系统SSSP实验记录(中国科学院大学大数据系统与大规模数据分析课程作业)

2023-06-08 07:42:04 119 1

原创 【大数据运算系统】MapReduce实验记录

大数据运算系统MapReduce实验记录(中国科学院大学大数据系统与大规模数据分析课程作业)

2023-06-08 07:39:39 100 1

原创 【大数据存储系统】HDFS+HashJoin+HBase实验记录

大数据系统HDFS+HashJoin+HBase实验记录(中国科学院大学大数据系统与大规模数据分析课程作业)

2023-06-08 07:36:50 5164 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除