
Spark
stupidTomA
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkSQL自定义聚合函数
官网上介绍的自定义聚合例子http://spark.apache.org/docs/latest/sql-getting-started.html#aggregationsSparkSQL的聚合函数支持count(), countDistinct(), avg(), max(), min()等,但是肯定不满足,所以需要用户自定义函数第一种 弱类型定义 extend UserDefi...原创 2020-03-31 21:55:56 · 317 阅读 · 0 评论 -
SparkSql 查询
import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkSqlDemo { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("demo").setM...原创 2020-03-31 21:36:37 · 341 阅读 · 0 评论 -
RDD DataFrame DataSet 相互转化的方法
import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject Transform { case class People(name:String,age:Int) def main(args: Array[String]): Unit = { val sparkConf =...原创 2020-03-30 21:12:08 · 259 阅读 · 0 评论 -
idea中使用sparkSQL
1.配置jdk 1.82.配置scala scala-2.12.113.下载spark, 要和上面的Scala相对应,不然idea里面的醒目启动的时候会报错4.下载hadoop 2.7.7 https://archive.apache.org/dist/hadoop/common/,配置HADOOP_HOME,并下载hadoop版本对应的winutils.exe 覆...原创 2020-03-29 15:22:21 · 809 阅读 · 0 评论 -
Spark Yarn 提交流程
spark-submit --class wordcount --master spark://aml168:7077 --driver-memory 800M --executor-memory 600M -...原创 2020-02-14 11:27:26 · 313 阅读 · 0 评论 -
记录学习spark遇到的问题
1.搭建好StandarOne之后,写了一个例子,将jar包上传到节点上去,运行任务19/11/26 14:52:50 ERROR TaskSetManager: Task 1 in stage 0.0 failed 4 times; aborting jobException in thread "main" org.apache.spark.SparkException: Job abo...原创 2019-11-26 15:12:56 · 969 阅读 · 0 评论