- 博客(9)
- 收藏
- 关注
原创 spark 验证Adaptive Execution
由于生产上spark集群需要诸多优化,先想先从数据倾斜开始下手,从平台层面进行改进。Spark Adaptive Execution可以帮助完成优化,现进行验证:一.集群跟shuffle partition有关的参数现状: 目前生产上已经有了调整shuffle parititon的参数: 1.spark.sql.adaptive.skewedJoin.enabled=true 2.s...
2020-02-11 17:36:44
203
原创 scala实用小点累积
主要是为了阅读spark源码方便,再次记录一些scala实用小点:1.scala的方法定义,[]表示可选def functionName ([参数列表]) : [return type] = { function body return [expr]}...
2020-02-11 08:46:26
170
1
原创 spark源码阅读----总则
一.内容 准备弄的spark模块有spark-core, spark-streaming, spark-sql,其他的暂不读。二.一些基本原则 阅读源码是为了更了解spark框架,进而能为生产上查找bug,集群及任务优化给到帮助。所以基本原则分来是,阅读分为两步: 1.先理出基本流程 2.细化基本流程到类和方法。 三.最终目的 ...
2020-02-07 16:03:16
125
原创 Spark SQL执行流程解析之 sql执行顺序
一.Spark SQL模板解析 Spark Sql 关键字执行顺序跟Sql执行顺序类似:1.先将from前两表做笛卡尔积加载进来形成虚拟表vt1,2.on条件后为真的插入虚拟表形成vt2,如果包含多个表,重复操作,完成所有数据加载后, 开始对形成的大虚拟表vt2进行处理,3.where 后为真的插入vt34.group by 进行行分组形成vt45.cube|...
2019-08-11 22:57:32
2552
原创 Spark执行流程解析
这一块要深入弄掉:一.sql解析成map的对应关系二.任务执行流程1.任务提交2.参数解析3.集群预配置4.代码分发5.map阶段执行6.shuffle7.reduce阶段8.结果输出...
2019-08-11 20:53:53
239
原创 hive表分区上传数据出现的一个问题及解决思路
hive表分区用load上传数据时, 出现了 报错: Failed with exception MetaException(message:For direct MetaStore DB connections, we don't support retries at the client level.)org.apache.hadoop.hive.ql.metadata.Hi...
2018-07-31 23:30:41
918
原创 堆排序初始堆的时间复杂度
堆排序建立初始堆时, 本质上是一个一维数组中, 元素间的两两比较, 其时间复杂度随着数组的规模线性增加 . 时间复杂度为O(n). 不知道推导不知所谓的公式意义何在!...
2018-07-19 23:22:12
3140
2
转载 (转)Mac/windows !!!!上替代Xshell终端模拟器ssh客户端的良心国产软件 FinalShell神器再生!!!!
NetSarang公司旗下软件家族的官方版本被爆被植入后门着实让我们常用的Xshell,Xftp等工具火了一把,很长时间都是在用Xshell,不过最近发现了一款同类产品FinalShell,还是一块良心国货。初步体验了一下,确实是良心之作。且免费(通用版),支持国货。 自从用了mac,最近一直在找一个合适的ssh客户端,今天终于找到一款,超级好用的ssh客户端finalshell,他可以连...
2018-07-17 23:17:09
2299
原创 JS中如何关闭手动打开的页面
不多说了,上码吧:方式一:<input type="button" name="exit" value="退出" onclick="self.close()"/> 无需函数,直接调用全局对象的方法.清晰明了,简单粗暴方式二:来个函数 function clo(){ window.close(); } ........ &...
2018-05-12 23:43:40
1599
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人