
Spark
文章平均质量分 90
红岸水滴
https://github.com/fenglei110
从孤独中寻找自由。
展开
-
聊聊OLAP
OLAP和OLTP不同的是,表中单条记录本身并不是查询所关心的,比较典型的特点包括有聚合类算子、涉及多表Join,查询所用谓语/条件没有索引。由于这些操作都非常耗计算资源,而且数据仓库相比数据库在数据量上大很多,因此OLAP类查询经常表现为cpu-bound而不是io-bound。按照建模类型将OLAP划分:1. MOLAP2. ROLAP3. HOLAP一. MOLAP这应该算最传统的数仓了,九十年代olap概念提出来时,指的就是MOLAP数仓,M即表示"多维"。大多数MO原创 2021-10-23 11:50:09 · 1018 阅读 · 1 评论 -
SparkSql 有关谓词下推
谓词下推最近公司做审计,任务有点重。然后发现spark sql跑出来的结果和实际情况有出入,于是经过多方打探和测试,今天做个了结。所谓谓词下推,也就是返回值是true和false的函数,做开发经常用到filter函数,这个高阶函数传入的参数就是一个返回true或false的函数。在SQL中,没有方法,只有表达式,where后边的表达式起的作用就是过滤的作用,而这部分语句被SQL引擎解析处理后,在数据库内部正式以谓词的形式呈现。SparkSQL首先会对输入的SQL语句进行一系列的分析,包括词法分析原创 2021-03-07 19:45:54 · 1832 阅读 · 4 评论 -
对于spark,你需要知道的核心概念
最近总结一波面试问题(包括python,MySQL,数据科学,机器学习,大数据等,一个人力量有限),有兴趣查看github1.hadoop 和 spark 使用场景?Hadoop/MapReduce 和 Spark 最适合的都是做离线型的数据分析,但 Hadoop 特别适合是单次分析的数据量“很大”的情景,而 Spark 则适用于数据量不是很大的情景。(1) 一般情况下,对于中小互联...原创 2019-04-14 21:12:48 · 1136 阅读 · 0 评论 -
实战中spark遇到的问题
最近总结一波面试问题(包括python,MySQL,大数据等,一个人力量有限),有兴趣查看github1.数据倾斜的产生和解决办法?数据倾斜以为着某一个或者某几个 partition 的数据特别大,导致这几个 partition 上的计算需要耗费相当长的时间。在 spark 中同一个应用程序划分成多个 stage,这些 stage 之间是串行执行的,而一个 stage 里面的多个 t...原创 2019-04-14 21:12:29 · 1148 阅读 · 0 评论