
大数据
文章平均质量分 94
゛依然
知足 上进 不负野心
展开
-
SparkStreaming
SparkStreaming一、SparkStreaming 概述二、Dstream 入门1、WordCount 案例实操三、DStream 创建1、RDD 队列2、自定义数据源3、Kafka 数据源四、DStream 转换1、无状态转化操作1.1、Transform1.2、 join2、有状态转化操作2.1、 UpdateStateByKey2.2、WindowOperations五、DStream 输出六、优雅关闭七、SparkStreaming 案例实操1、需求一:广告黑名单2、需求二:广告点击量实时原创 2022-01-05 19:49:45 · 2084 阅读 · 0 评论 -
spark
这里写目录标题一、累加器1、实现原理2、基础编程2.1、系统累加器2.2、自定义累加器二、广播变量1、实现原理2、基础编程三、Spark 案例实操1、需求 1:Top10 热门品类1.1、需求说明1.2、实现方案一1.3、实现方案二1.4、实现方案三2、需求 2:Top10 热门品类中每个品类的 Top10 活跃 Session 统计2.1、需求说明3、需求 3:页面单跳转换率统计3.1、需求说明3.2、功能实现一、累加器1、实现原理累加器用来把 Executor 端变量信息聚合到 Driver 端原创 2021-12-05 12:50:30 · 690 阅读 · 0 评论 -
spark(五)
spark(五)一、RDD的序列化1、闭包检查2、序列化方法和属性二、RDD 依赖关系1、RDD 血缘关系2、RDD 依赖关系3、RDD 窄依赖4、RDD 宽依赖5、RDD 阶段划分6、RDD 阶段划分源码7、RDD 任务划分8、RDD 任务划分源码三、 RDD 持久化1、RDD Cache 缓存2、RDD CheckPoint 检查点3、缓存和检查点区别4、RDD 分区器一、RDD的序列化1、闭包检查从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executo原创 2021-11-28 19:59:50 · 1426 阅读 · 0 评论 -
spark(四)
spark(四)一、RDD转换算子1、单Value类型1.1、repartition1.2、sortBy2、双 Value 类型2.1、intersection2.2、union2.3、subtract2.4、zip3、Key - Value 类型3.1、partitionBy3.2、reduceByKey3.3、groupByKey3.4、aggregateByKey3.5、foldByKey3.6、combineByKey3.7、sortByKey3.8、join3.9、leftOuterJoin3.1原创 2021-11-21 14:54:00 · 1971 阅读 · 0 评论