
spark
文章平均质量分 95
゛依然
知足 上进 不负野心
展开
-
SparkStreaming
SparkStreaming一、SparkStreaming 概述二、Dstream 入门1、WordCount 案例实操三、DStream 创建1、RDD 队列2、自定义数据源3、Kafka 数据源四、DStream 转换1、无状态转化操作1.1、Transform1.2、 join2、有状态转化操作2.1、 UpdateStateByKey2.2、WindowOperations五、DStream 输出六、优雅关闭七、SparkStreaming 案例实操1、需求一:广告黑名单2、需求二:广告点击量实时原创 2022-01-05 19:49:45 · 2084 阅读 · 0 评论 -
SparkSql
SparkSql一、Spark SQL概述1、什么是 Spark SQL2、Spark SQL 的特点3、DataFrame4、DataSet二、Spark SQL 编程1、SparkSession2、使用 DataFrame 进行编程2.1、创建 DataFrame2.2、SQL 语法一、Spark SQL概述1、什么是 Spark SQLSpark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块.与基本的 Spark RDD API 不同, S原创 2021-12-19 17:16:08 · 1179 阅读 · 0 评论 -
spark内核与源码
spark内核与源码一、环境准备(Yarn集群)二、组件通信三、应用程序的执行1、RDD依赖2、阶段划分3、任务切分4、任务的调度5、任务执行四、Shuffle1、Shuffle 的原理和执行过程2、Shuffle 写磁盘3、Shuffle 读取磁盘五、内存的管理1、内存的分类2、内存的配置一、环境准备(Yarn集群)bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode c原创 2021-12-19 16:59:28 · 687 阅读 · 0 评论 -
spark
这里写目录标题一、累加器1、实现原理2、基础编程2.1、系统累加器2.2、自定义累加器二、广播变量1、实现原理2、基础编程三、Spark 案例实操1、需求 1:Top10 热门品类1.1、需求说明1.2、实现方案一1.3、实现方案二1.4、实现方案三2、需求 2:Top10 热门品类中每个品类的 Top10 活跃 Session 统计2.1、需求说明3、需求 3:页面单跳转换率统计3.1、需求说明3.2、功能实现一、累加器1、实现原理累加器用来把 Executor 端变量信息聚合到 Driver 端原创 2021-12-05 12:50:30 · 690 阅读 · 0 评论 -
spark(五)
spark(五)一、RDD的序列化1、闭包检查2、序列化方法和属性二、RDD 依赖关系1、RDD 血缘关系2、RDD 依赖关系3、RDD 窄依赖4、RDD 宽依赖5、RDD 阶段划分6、RDD 阶段划分源码7、RDD 任务划分8、RDD 任务划分源码三、 RDD 持久化1、RDD Cache 缓存2、RDD CheckPoint 检查点3、缓存和检查点区别4、RDD 分区器一、RDD的序列化1、闭包检查从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executo原创 2021-11-28 19:59:50 · 1426 阅读 · 0 评论 -
spark(四)
spark(四)一、RDD转换算子1、单Value类型1.1、repartition1.2、sortBy2、双 Value 类型2.1、intersection2.2、union2.3、subtract2.4、zip3、Key - Value 类型3.1、partitionBy3.2、reduceByKey3.3、groupByKey3.4、aggregateByKey3.5、foldByKey3.6、combineByKey3.7、sortByKey3.8、join3.9、leftOuterJoin3.1原创 2021-11-21 14:54:00 · 1971 阅读 · 0 评论