Spark SQL, Dataset,Dataframe之间的关系

最新推荐文章于 2023-11-22 17:35:52 发布

原创

最新推荐文章于 2023-11-22 17:35:52 发布 · 928 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #spark #Dataset #dataFrame

Spark SQL是处理结构化数据的模块，提供SQL查询功能。DataFrame是Spark SQL与外部数据源之间的桥梁，类似关系型数据库的表。Dataset是分布式数据集，而DataFrame是特殊类型为Row的Dataset。DataFrame具有Schema信息，可以执行SQL操作。虽然DataFrame有schema，但因其仅存储Row，不直接支持domain对象操作，故有时被称为无类型的。

Overview

Spark SQL 是spark中用于处理结构化数据的模块。我们可以通过spark sql来执行sql query对数据进行处理。 spark sql可以在spark-shell中执行，也可以在java或者scala等编程语言中使用，在编程语言中执行一个sql query它的返回值是一个dataset。dataset是一个分布式数据集。dataframe是一种特殊的dataset，它们之间的关系可以表示为 dataframe = dataset[Row]， Row可以理解为关系型数据库中的表中的一行记录。也可以说如果一个dataset中装的是Row，那它就可以被称为一个dataframe。

DataFrame

我们可以把DataFrame的结构想象成关系型数据库中的一张表。它是spark sql与外部数据源之间的桥梁。spark sql中自带了很多API可以直接把外部数据源中的结构化数据转成DataFrame，这样我们就可以利用spark对这些数据进行分析了。
下面我们来演示一下把一个json文件转换为DataFrame。
json文件的数据结构如下：

// 这是用户的信息
{
   
   "userID":1,"gender":"F","age":1,"occupation":"10","zipcode":"48067"}
{
   
   "userID":2,"gender":"M","age":56,"occupation":"16","zipcode":"70072"}
{
   
   "userID":3,"gender":"M","age":25,

最低0.47元/天解锁文章