Spark SQL, Dataset, Dataframe
Overview
Spark SQL 是spark中用于处理结构化数据的模块。我们可以通过spark sql来执行sql query对数据进行处理。 spark sql可以在spark-shell中执行,也可以在java或者scala等编程语言中使用,在编程语言中执行一个sql query它的返回值是一个dataset。dataset是一个分布式数据集。dataframe是一种特殊的dataset,它们之间的关系可以表示为 dataframe = dataset[Row], Row可以理解为关系型数据库中的表中的一行记录。也可以说如果一个dataset中装的是Row,那它就可以被称为一个dataframe。
DataFrame
我们可以把DataFrame的结构想象成关系型数据库中的一张表。它是spark sql与外部数据源之间的桥梁。spark sql中自带了很多API可以直接把外部数据源中的结构化数据转成DataFrame,这样我们就可以利用spark对这些数据进行分析了。
下面我们来演示一下把一个json文件转换为DataFrame。
json文件的数据结构如下:
// 这是用户的信息
{
"userID":1,"gender":"F","age":1,"occupation":"10","zipcode":"48067"}
{
"userID":2,"gender":"M","age":56,"occupation":"16","zipcode":"70072"}
{
"userID":3,"gender":"M","age":25,

Spark SQL是处理结构化数据的模块,提供SQL查询功能。DataFrame是Spark SQL与外部数据源之间的桥梁,类似关系型数据库的表。Dataset是分布式数据集,而DataFrame是特殊类型为Row的Dataset。DataFrame具有Schema信息,可以执行SQL操作。虽然DataFrame有schema,但因其仅存储Row,不直接支持domain对象操作,故有时被称为无类型的。
最低0.47元/天 解锁文章
1062

被折叠的 条评论
为什么被折叠?



