sparksql
文章平均质量分 56
bigdatar
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sparksql源码解析(执行计划)
[TOC]1.group by查询select count(*),sum(o_totalprice),o_orderpriority from default.orders where o_orderkey>100 group by o_orderpriority"== Parsed Logical Plan =='Aggregate ['o_orderpriority], [unresolved原创 2016-12-20 23:06:57 · 1179 阅读 · 0 评论 -
sparksql中的broadcast join和prestodb中的dynamic filter比较
今天在prestodb的qq群里看到有人提到说一个子查询在presto中非常慢:select * from his_data_opt where act_no in (select act_no from id_act_map where id_number ='726067685144725');可以看出,这是一个普通的非相关子查询,如果内部子查询经过过滤条件只剩几条,那么整个查询应该非常完美的在原创 2017-09-12 23:09:10 · 1435 阅读 · 0 评论 -
ideallij调试spark源码的n中方法
该篇文章介绍多种在ideallij中单步调试spark源码的方法,以sparksql为例来进行说明方法一 直接通过app的方式进行单步调试本方法假设开发者已经搭建了spark在ideallij中的的运行环境,并且可以成功运行(注意,是ideallij中运行,而不是通过打jar包的方式运行)app源码package com.tencent.cubeli.spark原创 2017-11-04 15:14:43 · 1227 阅读 · 0 评论 -
spark中的countminsketch
什么是countminsketch算法spark中的countminsketch代码示例:import org.apache.spark.util.sketch.CountMinSketchimport org.apache.spark.util.sketch.CountMinSketchImplobject countminsketch { def main(a...原创 2018-03-08 21:08:14 · 1329 阅读 · 0 评论
分享