
Spark
ZG_24
这个作者很懒,什么都没留下…
展开
-
Dataframe中na.fill的用法
对两个数据表如A,B取JOIN操作的时候,其结果往往会出现NULL值的出现。 这种情况是非常不利于后续的分析与计算的,特别是当涉及到对这个数值列进行各种聚合函数计算的时候。 Spark为此提供了一个高级操作,就是:na.fill的函数。 其处理过程就是先构建一个MAP,如下: val原创 2017-05-14 14:07:37 · 12084 阅读 · 0 评论 -
Spark dataframe创建&操作总结
DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学原创 2017-05-25 10:02:21 · 1518 阅读 · 1 评论 -
SparkSQL的3种Join实现
1. SparkSQL的3种Join实现1.1. Broadcast Join操作大家知道,在数据库的常见模型中(比如星型模型或者雪花模型),表一般分为两种:事实表和维度表。维度表一般指固定的、变动较少的表,例如联系人、物品种类等,一般数据有限。而事实表一般记录流水,比如销售清单等,通常随着时间的增长不断膨胀。因为Join操作是对两个表中key值相同的记录进行连接,在SparkSQL中原创 2017-06-12 16:53:04 · 492 阅读 · 0 评论 -
spark broadcast side join实例
在用spark进行大数据处理时,join是少不了的操作。由于join会导致shuffle,所以当数据量较大时,会导致效率很低,甚至任务失败。 为了有效解决shuffle阶段引起的效率过低问题,我们可以使用broadcast map side join来避免shuffle阶段导致的效率变低问题。 使用map side join时,我们可以把一个较小的原创 2017-07-04 14:51:24 · 1935 阅读 · 0 评论