Spark编程基础（三）

最新推荐文章于 2024-05-12 23:09:15 发布

原创

最新推荐文章于 2024-05-12 23:09:15 发布 · 383 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #数据库 #java #hive #linux

Spark SQL是Spark的重要组件，源自Shark的改进。它引入DataFrame，提供SQL支持，可处理来自RDD、Hive、HDFS等的数据。DataFrame简化了大规模结构化数据的处理，提供高效率。本文将介绍DataFrame的创建和常用操作。

Spark SQL

简介

Spark SQL是Spark生态系统中非常重要的组件，其前身为Shark。
Shark即Hive on Spark，Shark的实现继承了大量的Hive代码，因而给优化和维护带来了大量的麻烦，特别是基于MapReduce设计的部分，成为整个项目的瓶颈。因此，在2014年的时候，Shark项目中止，并转向Spark SQL的开发。

Spark SQL架构

Spark SQL增加了SchemaRDD（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句，数据既可以来自RDD，也可以来自Hive、HDFS、Cassandra等外部数据源，还可以是JSON格式的数据。
在这里插入图片描述

DataFrame概述

DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。
在这里插入图片描述

DataFrame的创建

如何使用SparkSession来创建DataFrame。
请进入Linux系统，打开“终端”，进入Shell命令提示符状态。
首先，请找到样例数据。 Spark已经为我们提供了几个样例数据，就保存在“/usr/local/spark/examples/src/main

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。