Spark SQL, Dataset,Dataframe之间的关系

Spark SQL是处理结构化数据的模块,提供SQL查询功能。DataFrame是Spark SQL与外部数据源之间的桥梁,类似关系型数据库的表。Dataset是分布式数据集,而DataFrame是特殊类型为Row的Dataset。DataFrame具有Schema信息,可以执行SQL操作。虽然DataFrame有schema,但因其仅存储Row,不直接支持domain对象操作,故有时被称为无类型的。

Spark SQL, Dataset, Dataframe

Overview

Spark SQL 是spark中用于处理结构化数据的模块。我们可以通过spark sql来执行sql query对数据进行处理。 spark sql可以在spark-shell中执行,也可以在java或者scala等编程语言中使用,在编程语言中执行一个sql query它的返回值是一个dataset。dataset是一个分布式数据集。dataframe是一种特殊的dataset,它们之间的关系可以表示为 dataframe = dataset[Row], Row可以理解为关系型数据库中的表中的一行记录。也可以说如果一个dataset中装的是Row,那它就可以被称为一个dataframe。

DataFrame

我们可以把DataFrame的结构想象成关系型数据库中的一张表。它是spark sql与外部数据源之间的桥梁。spark sql中自带了很多API可以直接把外部数据源中的结构化数据转成DataFrame,这样我们就可以利用spark对这些数据进行分析了。
下面我们来演示一下把一个json文件转换为DataFrame。
json文件的数据结构如下:

// 这是用户的信息
{
   
   "userID":1,"gender":"F","age":1,"occupation":"10","zipcode":"48067"}
{
   
   "userID":2,"gender":"M","age":56,"occupation":"16","zipcode":"70072"}
{
   
   "userID":3,"gender":"M","age":25,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值