- 博客(76)
- 资源 (1)
- 收藏
- 关注
原创 数仓面试——补充缺失日期和数据
补充缺失的日期行, 以及补充其他对应的数据,从思路分析到解决问题,三种不同方式让大家更熟悉窗口函数,不同的思路,不一样的风景呢。。。
2023-03-09 14:57:21
691
1
原创 窗口函数为什么更容易出现性能问题?——一个优化案例
普通的聚合函数语句根据函数不同, 可以partial+merge的方式运行, 也就是map端预聚合;而window语句则都要在reduce端一次性聚合, 也就是只有complete执行模式。普通的聚合函数的物理执行计划分为SortBased和HashBased的;而window则都是SortBased。window语句作用于多行, 并为每行返回一个聚合结果,这决定了window在执行过程中需要更大的buffer进行汇总。
2023-03-09 11:12:48
1136
原创 SparkSql内存专题——Spark on YARN Executor整体内存理解
不管是聚合、还是join;不管它们占的空间有多大;不管它们是int类型的,还是一个大json串;不管实现整个聚合的计算用的是HashAgg 、是ObjectHashAgg 或者是SortAgg;不管实现整个JOIN的计算用的是SortMergeJoin 、是ShuffleHashJoin 、还是BroadcastHashJoin...
2023-03-09 09:58:44
1114
原创 你为什么从java开发转大数据? 大数据方向能走的更远吗?
我想说如果选择了一条路,那就放开去拼一把,认真实践,会有所收获。人生路上,走的每一步都算数~
2023-02-28 09:20:14
1362
原创 数据仓库开发人员怎么避免成为取数机器?
从事互联网数据仓库工作好多年了,其中最大的感触就是数据仓库开发人员每天做的最多的工作就是为业务方取数。简单重复的取数工作,一方面很难让大家在技能上有提高,另一方面也慢慢的消磨了大家的积极性和意志,也让大家极没有存在感。
2023-02-27 16:44:33
182
原创 关于【你们数据仓库是怎么设计的】如何回答?
你们数据仓库都是怎么设计的,数据怎么抽象?关于这个问题,我说一说我的想法,不一定是正确的,但希望能给你提供一些思路
2023-02-27 16:33:25
630
原创 从一个sql引发的hive谓词下推的全面复盘及源码分析(下)
网上有太多写hive谓词下推的文章,但因为版本问题,不够全面,也不够准确了。影响谓词下推的不仅仅有PPD优化器,还有CBO。该文章【上篇】主要介绍谓词下推的规则及结论,【下篇】从源码层面跟踪hive是怎么做的优化
2023-02-26 12:16:52
392
原创 从一个sql引发的hive谓词下推的全面复盘及源码分析(上)
网上有太多写hive谓词下推的文章,但因为版本问题,不够全面,也不够准确了。影响谓词下推的不仅仅有PPD优化器,还有CBO。该文章【上篇】主要介绍谓词下推的规则及结论,【下篇】从源码层面跟踪hive是怎么做的优化
2023-02-26 11:03:40
295
原创 Hive源码系列(九)编译模块之语义解析 整体分析
要坚持不懈的撸源码,让撸源码成为一种习惯,即使撸源码的计划被打乱,然后我们依旧饱含热情的去制定新的撸源码计划 ...
2023-02-25 16:42:20
325
原创 Hive源码系列(七)编译模块之词法、语法解析 (中)
这篇主要举实际案例说明怎么使用antlr工具、利用antlr生成的Lexer、Parser、TreeParser代码,获取asttree。这些都是hive获取asttree的过程,理解了这些,再理解hive的asttree就很容易了
2023-02-24 17:55:58
185
原创 Hive源码系列(六)编译模块之词法、语法解析 (上)
词法语法解析模块会先介绍一下antlr环境(上)。然后举案例说明怎么利用antlr生成的Lexer、Parser、TreeParser代码获取asttree(中)。 最后详细介绍hive词法语法解析源码、玩转hive asttree(下)
2023-02-24 17:34:53
130
原创 Hive源码系列(四)hive2.1.1源码包介绍及调试
这次主要对hive源码包及hive的两种调试方式做了介绍,这篇结束后,整个源码调试环境的搭建已经完成。
2023-02-24 15:19:34
285
原创 Hive源码系列(三)hive2.1.1源码导入eclipse并做初步运行
这一篇主要写将hive源码导入eclipse以及运行入口类CliDriver.java。在导入及运行的过程会遇到各种各样的问题,本文写了自己遇到的问题及解决方案。把项目跑起来非常重要,这些都是我们后面分析调试hive编译模块源码的基础。
2023-02-23 15:43:07
203
原创 Hive源码系列(二)hive2.1.1源码编译并编译成eclipse项目
我在调试hive源码时,主要使用eclipse,所以最终要把hive源码编译成eclipse项目,方便导入eclipse进行调试。后面会考虑录hive源码系列的同步视频,喜欢的同学多多关注
2023-02-23 15:24:54
209
原创 spark sql多维分析优化——提高读取文件的并行度
知识技术不能留盲点,尤其是正在用的关键技术。盲点、死穴,不花时间去研究,总会绊你一脚。主动学习,保持激情,不断提高~
2023-02-23 14:12:43
1199
原创 SparkSql数组操作的N种骚气用法
总结一下sparksql(基于branch3.3) 中 array操作相关的骚气用法,这恐怕是总结的最全的一篇了,哈哈~~
2023-02-22 14:28:17
3377
原创 Hive源码系列(一)hive2.1.1+hadoop2.7.3环境搭建
这是一篇工具类的文章,要分析调试hive源码,必须搭建一套hive的运行环境。还记得第一次搭建hive源码调试环境,用了一个月的时间,才完全跑通整个调试过程。中间遇到各种各样莫名奇妙的问题,也有好多次想放弃,幸好坚持了下来。
2023-02-21 15:49:54
629
原创 Hive Bug系列之关联结果不正确详解
Hive是互联数据仓库中使用最频繁的工具,做为仓库的技术人员,有很大必要去深入了解它,并以认真的态度去对待工作中遇到的每个问题,每个知识点,由点及面,让我们的技术更扎实,也让我们更有底气!
2023-02-20 21:47:45
961
1
原创 Spark DataSource API v2 版本对比 v1有哪些改进?
Spark DataSource API v2 版本对比 v1有哪些改进?整理记录一下,下周分享ResolveRelations规则中会用到,需要理解
2023-02-20 20:30:30
144
原创 sparksql源码系列 | 生成resolved logical plan的解析规则整理
Analyzer定义了从【未解析的逻辑执行计划】生成【解析后的逻辑执行计划】的一系列规则
2023-02-20 15:50:55
205
原创 sparksql源码系列 | ResolveReferences规则count(*)详解
大家想要《sparksql内核心剖析》电子书的话,一定记得后台发 :sparksql源码 这几个字,不要有空格、不要加- ,因为我设置的是精准匹配,看到有好多小伙伴发错了
2023-02-20 14:25:53
194
原创 sparksql源码系列 | 最全的logical plan优化规则整理(spark2.3)
最全的logical plan优化规则整理(spark2.3),有需要的点赞收藏~~
2023-02-20 10:13:18
242
原创 Sparksql源码系列 | 读源码必须掌握的scala基础语法
这篇文章总结一下我在学习spark sql源码时,曾经纠结过的一些scala语法~
2023-02-18 11:43:36
305
1
Informatica的《全局数据治理》白皮书
2023-04-07
新手指导hadoop、hbase、hive版本对应关系查找表
2015-02-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人