
Spark
Demo_chen
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark 从MySQL中 读取 和插入 数据
在MySQL中 创建 rdd 数据库 创建 user(id, name, age)表 添加测试数据 (1,''zhangsan",20),(2,''lisi",30),(3,''zhangsan",40) package com.bigdata.spark.Connect import java.sql.{Connection, DriverMana...原创 2019-05-16 11:52:53 · 716 阅读 · 0 评论 -
SparkSql 中用户自定义聚合函数---强类型
强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数, 如count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 强类型用户自定义聚合函数:通过继承Aggregator来实现强类型自定义聚合函数。 强类型 Demo :自定义求用户平均年龄的聚合函数 ...原创 2019-05-13 20:38:40 · 505 阅读 · 0 评论 -
SparkSql 中用户自定义聚合函数---弱类型
强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数, 如count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 弱类型用户自定义聚合函数:通过继承UserDefinedAggregateFunction来实现用户自定义聚合函数。 弱类型 Demo 自定义求用...原创 2019-05-13 20:34:26 · 305 阅读 · 0 评论 -
Spark 性能调优-----常规性能调优
常规性能调优 1常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示: 代码清单2-1 标准Spark提交脚本 /u...原创 2019-05-17 12:06:08 · 436 阅读 · 0 评论 -
Spark cluster 工作机制
Spark-cluster 工作任务执行流程模型 在YARN Cluster模式下,任务提交后会和ResourceManager通讯申请启动ApplicationMaster,随后ResourceManager分配container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster就是Drive...原创 2019-05-17 14:03:25 · 256 阅读 · 0 评论