lyz13469312003-优快云博客

原创 spark 验证Adaptive Execution

由于生产上spark集群需要诸多优化，先想先从数据倾斜开始下手，从平台层面进行改进。Spark Adaptive Execution可以帮助完成优化，现进行验证：一.集群跟shuffle partition有关的参数现状：目前生产上已经有了调整shuffle parititon的参数： 1.spark.sql.adaptive.skewedJoin.enabled=true 2.s...

2020-02-11 17:36:44 203

原创 scala实用小点累积

主要是为了阅读spark源码方便，再次记录一些scala实用小点：1.scala的方法定义，[]表示可选def functionName ([参数列表]) : [return type] = { function body return [expr]}...

2020-02-11 08:46:26 170 1

原创 spark源码阅读----总则

一.内容准备弄的spark模块有spark-core, spark-streaming, spark-sql，其他的暂不读。二.一些基本原则阅读源码是为了更了解spark框架，进而能为生产上查找bug，集群及任务优化给到帮助。所以基本原则分来是，阅读分为两步： 1.先理出基本流程 2.细化基本流程到类和方法。三.最终目的 ...

2020-02-07 16:03:16 125

原创 Spark SQL执行流程解析之 sql执行顺序

一.Spark SQL模板解析 Spark Sql 关键字执行顺序跟Sql执行顺序类似:1.先将from前两表做笛卡尔积加载进来形成虚拟表vt1,2.on条件后为真的插入虚拟表形成vt2,如果包含多个表,重复操作,完成所有数据加载后, 开始对形成的大虚拟表vt2进行处理,3.where 后为真的插入vt34.group by 进行行分组形成vt45.cube|...

2019-08-11 22:57:32 2552

原创 Spark执行流程解析

这一块要深入弄掉:一.sql解析成map的对应关系二.任务执行流程1.任务提交2.参数解析3.集群预配置4.代码分发5.map阶段执行6.shuffle7.reduce阶段8.结果输出...

2019-08-11 20:53:53 239

原创 hive表分区上传数据出现的一个问题及解决思路

hive表分区用load上传数据时, 出现了报错: Failed with exception MetaException(message:For direct MetaStore DB connections, we don't support retries at the client level.)org.apache.hadoop.hive.ql.metadata.Hi...

2018-07-31 23:30:41 918

原创堆排序初始堆的时间复杂度

堆排序建立初始堆时, 本质上是一个一维数组中, 元素间的两两比较, 其时间复杂度随着数组的规模线性增加 . 时间复杂度为O(n). 不知道推导不知所谓的公式意义何在!...

2018-07-19 23:22:12 3140 2

转载 (转)Mac/windows !!!!上替代Xshell终端模拟器ssh客户端的良心国产软件 FinalShell神器再生!!!!

NetSarang公司旗下软件家族的官方版本被爆被植入后门着实让我们常用的Xshell，Xftp等工具火了一把，很长时间都是在用Xshell，不过最近发现了一款同类产品FinalShell，还是一块良心国货。初步体验了一下，确实是良心之作。且免费（通用版），支持国货。自从用了mac，最近一直在找一个合适的ssh客户端，今天终于找到一款，超级好用的ssh客户端finalshell，他可以连...

2018-07-17 23:17:09 2299

原创 JS中如何关闭手动打开的页面

不多说了,上码吧:方式一:<input type="button" name="exit" value="退出" onclick="self.close()"/> 无需函数,直接调用全局对象的方法.清晰明了,简单粗暴方式二:来个函数 function clo(){ window.close(); } ........ &...

2018-05-12 23:43:40 1599

lyz13469312003的博客