
spark
果果的爸爸
路漫漫其修远兮,吾将上下而求索
展开
-
Spark SQL函数之GROUP_CONCAT实现
需求:根据class分组,把同一分组的name字段使用逗号分隔 原始表: 结果集:Spark sql 实现 :SELECT concat_ws(',',collect_set(name)) FROM A GROUP BY class原创 2018-02-02 15:00:07 · 12941 阅读 · 1 评论 -
Spark SQL函数之分组排序
需求:根据class分组对组内的age进行排序原表结果Spark SQL :SELECT name, age, class, row_number() over(partition by age order byclass) as RE FROM A默认会把同一分组的age最大放到第一位,并且设置RE=1,以此类推注意事项 :原创 2018-02-02 15:02:13 · 6822 阅读 · 0 评论 -
Spark自定义函数之max_by()实现
需求:求同一班级,年龄最大的学生的姓名 自定义聚合函数需要实现UserDefinedAggregateFunction,以下是该抽象类的定义,加了一点注释 继承类的源代码 - UserDefinedAggregateFunction/* * Licensed to the Apache Software Foundation (ASF) under one or mor原创 2018-02-02 15:04:32 · 4957 阅读 · 0 评论 -
SPARK异常解决(长期更新...)
SPARK异常解决(长期更新...)异常一 FAILED SelectChannelConnector@0.0.0.0:4040: java.net.BindException: Address already in use: bindjava.net.BindException: Address already in use: bind原创 2018-02-02 15:08:38 · 4545 阅读 · 0 评论 -
Spark standalone模式启动
MASTER[root@hicmaster2 spark-2.2.1-bin-hadoop2.6]# ./sbin/start-master.sh starting org.apache.spark.deploy.master.Master, logging to /tools/spark-2.2.1-bin-hadoop2.6/logs/spark-root-org.apache.spark....原创 2018-04-24 10:36:51 · 770 阅读 · 0 评论 -
Windows安装Spark
系统版本 Spark : 2.3.1 Hadoop : 2.6.0 JDK : 1.8.0_161 Scala : 2.11.8第一步:安装JDK,配置环境变量JAVA_HOMEC:\Program Files\Java\jdk1.8.0_161CLASSPATH.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;P...原创 2018-06-12 17:23:09 · 965 阅读 · 0 评论