
Spark
故克里
java、python、scala、spark啥都行
展开
-
spark
spark数据分析导论spark是什么?spark是一个用来实现快速而通用的集群计算平台。主要的特点就是在内存中进行计算。spark的软件栈spark Core:实现了spark的基本功能,包括任务调度、内存管理、错误恢复与存储系统交互等模块以及对RDD(弹性分布式数据集)的定义及相关的API操作。spark Sql:是spark用来操作结构化数据的程序包,支持Apache Hive ...原创 2019-11-29 09:30:18 · 420 阅读 · 1 评论 -
spark有向无环图与血缘
Spark 有向无环图与血缘当我们提交jar包运行时,spark会在节点中随机选择一个节点作为Driver端,Driver端会运行一遍程序形成DAG(有向无环图)然后,数据会根据有向无环图运行,图中的每个节点生成的df是一次性的,也就是说C的数据被D1所用后,C的数据就没有了,当D2用C的数据时,C数据会从A -> B -> C 重新计算优化:我们将C的数据进行持久化,此时DA...原创 2019-07-23 16:30:10 · 663 阅读 · 1 评论 -
spark
Spark.sql 列转行方法之stack函数用法一个小需求:在hive表中取每个客户近6个月月底的三个字段:cust_id(客户id)、par_dt(分区时间)、money(金额),若客户只有近3个月的记录,则需要另外补充数据,金额为0。因为spark中df只能增加列,而不能增加行记录,故补充默认值需要进行列转行,使用stack内置函数。好,废话不多说,进行代码Demo演示。Object...原创 2019-07-24 10:25:35 · 1304 阅读 · 0 评论