
Spark
文章平均质量分 67
orisonchan
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
翻译:Apache Spark : RDD vs DataFrame vs Dataset
在Spark 2.0 Release中,官方提供了3种数据抽象结构供使用:RDD,DataFrame and DataSet。 对于新手来说,可能会对理解三种结构间的关系和决定使用不使用哪一种感到迷惑。本文会详细介绍区别。简要综述 在分开讨论前,来一个简述,三种结构产生顺序如下:RDD (Spark1.0) —> Dataframe(Spark1.3) —>...翻译 2018-08-09 23:14:15 · 278 阅读 · 0 评论 -
写一个Spark DataSource的随手笔记
真的只是个随手笔记。记录下一些操作过程。背景最近需要实现一些Spark逻辑计划和物理计划的优化,遂打算写一点简单的数据源来测试。突然想到了Oracle常见的scott/tiger里的数据。遂打算使用该数据。获得数据毕竟装Oracle是个大工程,没有必要为了做个测试单独安装一个Oracle,于是用Docker,这里推荐一下阿里的Docker Oracle镜像库:https://d...原创 2018-08-09 23:22:48 · 453 阅读 · 0 评论 -
Spark2.1和2.2 SQL物理执行策略关键源码分析
1. 文章开始之前先附上一句SQL,使用tpc-ds的表结构,我们围绕这句SQL讲。SQL:SQL> selectavg(cs_ext_discount_amt)fromcatalog_sales, date_dimwhered_date between '1999-02-22'andcast('1999-05-22' as date)andd_date_sk ...原创 2018-10-14 10:35:58 · 545 阅读 · 0 评论 -
Spark写Parquet源码分析
Spark层面Spark层面我们从dataframe.write.parquet("path")说起。In DataFrameDataset中的write()方法:/** * Interface for saving the content of the non-streaming Dataset out into external storage. * * @group...原创 2019-01-23 00:36:30 · 2523 阅读 · 0 评论