
大数据
文章平均质量分 66
lyz13469312003
这个作者很懒,什么都没留下…
展开
-
spark 验证Adaptive Execution
由于生产上spark集群需要诸多优化,先想先从数据倾斜开始下手,从平台层面进行改进。Spark Adaptive Execution可以帮助完成优化,现进行验证:一.集群跟shuffle partition有关的参数现状: 目前生产上已经有了调整shuffle parititon的参数: 1.spark.sql.adaptive.skewedJoin.enabled=true 2.s...原创 2020-02-11 17:36:44 · 211 阅读 · 0 评论 -
scala实用小点累积
主要是为了阅读spark源码方便,再次记录一些scala实用小点:1.scala的方法定义,[]表示可选def functionName ([参数列表]) : [return type] = { function body return [expr]}...原创 2020-02-11 08:46:26 · 178 阅读 · 1 评论 -
hive表分区上传数据出现的一个问题及解决思路
hive表分区用load上传数据时, 出现了 报错: Failed with exception MetaException(message:For direct MetaStore DB connections, we don't support retries at the client level.)org.apache.hadoop.hive.ql.metadata.Hi...原创 2018-07-31 23:30:41 · 927 阅读 · 0 评论 -
Spark执行流程解析
这一块要深入弄掉:一.sql解析成map的对应关系二.任务执行流程1.任务提交2.参数解析3.集群预配置4.代码分发5.map阶段执行6.shuffle7.reduce阶段8.结果输出...原创 2019-08-11 20:53:53 · 243 阅读 · 0 评论 -
Spark SQL执行流程解析之 sql执行顺序
一.Spark SQL模板解析 Spark Sql 关键字执行顺序跟Sql执行顺序类似:1.先将from前两表做笛卡尔积加载进来形成虚拟表vt1,2.on条件后为真的插入虚拟表形成vt2,如果包含多个表,重复操作,完成所有数据加载后, 开始对形成的大虚拟表vt2进行处理,3.where 后为真的插入vt34.group by 进行行分组形成vt45.cube|...原创 2019-08-11 22:57:32 · 2565 阅读 · 0 评论