
Spark SQL
文章平均质量分 96
大数据技术与数仓
欢迎关注我的公众号【大数据技术与数仓】
回复【资料】领取大数据书籍与视频
展开
-
第十一篇|基于SparkSQL的电影分析项目实战
在之前的分享中,曾系统地介绍了Spark的基本原理和使用方式,感兴趣的可以翻看之前的分享文章。在本篇分享中,将介绍一个完整的项目案例,该案例会真实还原企业中SparkSQL的开发流程,手把手教你构建一个基于SparkSQL的分析系统。为了讲解方便,我会对代码进行拆解,完整的代码已上传至GitHub,想看完整代码可以去clone,记得给个Star。以下是全文,希望本文对你有所帮助。https://github.com/jiamx/spark_project_practise公众号『大数据技术与数仓』,原创 2020-11-23 13:29:21 · 3449 阅读 · 3 评论 -
Spark SQL的数据源(Spark2.3.2)
版权声明:本文为博主原创(翻译)文章,未经博主允许不得转载。https://blog.youkuaiyun.com/jmx_bigdata/article/details/83619838目录一、 普通的Load/Save方式 1. 手动指定文件格式2.使用SQL直接查询文件3.保存模式4.保存为永久的表5. 分桶、排序与分区二、Parquet文件1.编程的方式加载数据...原创 2018-11-01 14:25:38 · 1610 阅读 · 0 评论 -
Spark SQL性能调优(Spark2.3.2)
对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。1.在内存中缓存数据Spark SQL可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()使用内存中的列式格式来缓存表。然后,Spark SQL将仅扫描所需的列,并自动调整压缩以最小化内存使用和GC压力。您可以调用spark.catalog.unca...翻译 2018-11-02 17:58:59 · 1210 阅读 · 0 评论 -
Spark SQL的分布式SQL引擎
目录一、简介二、使用Thrift JDBC/ODBC server2.1概述2.2使用案例三、使用Spark SQL cli一、简介Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在此模式下,终端用户或应用程序可以直接与Spark SQL交互以运行SQL查询,而无需编写任何代码。主要有两种方式,一种是Thrift JDBC/O...原创 2019-03-15 14:15:27 · 641 阅读 · 0 评论