sparkSql 创建dataFrame几种方式

最新推荐文章于 2024-08-05 22:50:20 发布

原创

最新推荐文章于 2024-08-05 22:50:20 发布 · 369 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#sparkSql 创建dataFrame几种方式

本文介绍了SparkSQL在2.x版本中的主要入口SparkSession，它是SQLContext和HiveContext的结合体。接着详细讲述了如何使用SparkSession创建DataFrame，包括读取json、parquet文件，从MySQL数据库导入，通过反射转换RDD以及动态创建schema的方式。还提到了读取Hive表的前提条件。

前提
在老的版本1.x中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询。
SparkSession是Spark最新的2.x SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的

创建dataFrame的几种方式

读json 文件：注意不能读取嵌套类型Json文件

  val spark = SparkSession.builder().appName("df1").getOrCreate()
  val df1: DataFrame = spark.read.json("./json")
  //俩种方式读json文件
 // val df1: DataFrame = spark.read.format("json").load("./json")
  df1.createTempView("t1")
  spark.sql("select * from t1 where age >21")

读parquet文件：和读json文件类似

 val spark = SparkSession.builder().appName("df1").getOrCreate()
  val df1: DataFrame = spark.read.parquet("./a")

读取mysql文件

 //sparkSql入口
  val spark = SparkSession.builder().master("local[*]").appName("d

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

shining0903lxy

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark SQL之创建dataFrame的多种方法

xiaohu21的博客

10-05

994

Spark SQL之创建dataFrame的多种方法 1.Spark SQL是什么官网http://spark.apache.org/sql/ Spark SQL顾名思义，就是通过SQL来使用Spark强大的数据分析能力，而不用去写代码。类似一Hive，可以将框架的使用门槛极大降低。因为SQL是很多人都会使用的，而编写代码门槛相对高得多。 2. dataFrame是什么官网介绍和RDD类似，dataFrame也是一个分布式抽象数据容器。并不存储数据，但会存储数据来源，数据操作以及数据结构化信

摸鱼大数据——Spark SQL——DataFrame详解一

weixin_65694308的博客

07-07

1502

DataFrame表示的是一个二维的表。二维表，必然存在行、列等表结构描述信息表结构描述信息(元数据Schema): StructType对象字段: StructField对象，可以描述字段名称、字段数据类型、是否可以为空行: Row对象列: Column对象，包含字段名称和字段值在一个StructType对象下，由多个StructField组成，构建成一个完整的元数据信息。

参与评论您还未登录，请先登录后发表或查看评论

SparkSQL通过Mysql创建DataFrame

01-07

一、数据源 CREATE TABLE student( id int not null primary key, name varchar(20), age int(20), city varchar(20), score double(20,2) )ENGINE=InnoDB DEFAULT CHARSET=utf8; insert into student(id,name,age,city,score) values(1,'张飞',21,'北京',80.0); insert into student(id,name,age,city,score) values(2,

SparkSQL 创建DataFrame

cai_and_luo的博客

02-02

541

1 前言： Spark SQL 的 DataFrame API 允许我们使用 DataFrame 而不用必须去注册临时表或者生成 SQL 表达式。 DataFrame API 既有 transformation 操作也有 action 操作。 2 创建 DataFrame 在 Spark SQL 中 SparkSession 是创建 DataFrame 和执行 SQL 的入口，创建 DataFrame 有三种方式：通过 Spark 的数据源进行创建；从一个存在的 RDD 进行转换；还可以从 Hiv

SparkSQL创建dataframe的方式大全

wuyue的博客

07-26

620

今天也要努力学习一：通过读取json格式的文件创建dataframe： package com.bjsxt.scalaspark.sql.DataSetAndDataFrame import org.apache.spark.sql.{DataFrame, SparkSession} /** ...

精选资源

SparkSQL-DataFrame

01-16

创建DataFrame主要有以下几种方式： 1. **从现有RDD转换**：通过`sqlContext.createDataFrame()`方法，将RDD转换为DataFrame。首先，需要对RDD进行类型定义，例如使用`Row`类或自定义case class来指定字段和类型。 ...

创建dataframe的几种方式——读取Hive中的数据加载成DataFrame

wyqwilliam的博客

11-23

3470

读取Hive中的数据加载成DataFrame HiveContext是SQLContext的子类，连接Hive建议使用HiveContext。由于本地没有Hive环境，要提交到集群运行，提交命令： ./spark-submit --master spark://node1:7077,node2:7077 --executor-cores 1 --executor-memory 2G ...

【Spark计算引擎----第四篇（SparkSQL）---《Spark SQL 介绍：DataFrame 的 Row 和 Schema，DataFrame 的创建与基本使用》】

书生的技术分享

08-05

1180

《Spark SQL 介绍：DataFrame 的 Row 和 Schema，DataFrame 的创建与基本使用》！！！Spark SQL 是 Apache Spark 中的一个模块，它为处理结构化和半结构化数据提供了一种高效且易用的方法。Spark SQL 允许用户通过 SQL 查询或通过 DataFrame 和 Dataset API 来处理数据。SparkSQL是处理结构化数据的模块/组件结构化数据 -> 可以用schema描述的数据表格,

SparkSQL学习记录（SparkSQL 两种Schema创建方式）

slyang的博客

05-22

8648

方式：//l通过定义Case Class，使用反射推断Schema（case class方式） //2 通过可编程接口，定义Schema，并应用到RDD上（createDataFrame 方式)import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQ...

SparkSQl-DataFrame创建

m0_52680439的博客

11-12

468

反观 RDD，由于无从得知所存数据元素的具体内部结构，Spark Core 只能在 stage 层面进行。调用RDD中的toDF方法转换为DataFrame对象，由于RDD与DataFrame转换需要引入隐式转换规则，否则无法进行转换。5.DSL语法：涉及到运算的时候, 每列都必须使用$, 或者采用引号表达式：单引号+字段名。与 RDD 的主要区别在于，前者带有 schema 元信息，即。所表示的二维表数据集的每一列都带有名称和类型，从而对藏于。（1）读取CSV文件创建DataFrame。

Spark SQL初始化和创建DataFrame的几种方式

weixin_30590285的博客

09-07

439

一、前述 1、SparkSQL介绍 Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念，是Spark能够高效的处理大数据的各种场景的基础。能够在Scala中写SQL语句。支持简单的SQL语法检查，能够在Sc...

SparkSql如何创建DataFrame

qq_41769288的博客

10-25

304

一,如果构建SparkSession import org.apache.spark.sql.SparkSession; 1,SparkSession.builder().getOrCreate(); 2,SparkSession.builder .master("local") .appName("Word Count") .config("spark.some.confi...

SparkSql中创建DataFrame的三种创建方式

徐磊的博客

02-13

534

目录第一种通过case class 进行创建第二种通过 StructType创建第三种通过read.txtFile 第一种通过case class 进行创建 package com.sparksql.com import org.apache.spark.sql import org.apache.spark.sql.SparkSession /** ...

Spark _22 _创建DataFrame的几种方式（一）

乔治大哥的博客

11-14

585

创建DataFrame的几种方式读取json格式的文件创建DataFrame 注意： json文件中的json数据不能嵌套json格式数据。 DataFrame是一个一个Row类型的RDD，df.rdd()/df.javaRdd()。可以两种方式读取json格式的文件。 df.show()默认显示前20行数据。 DataFrame原生API可以操作DataFram...

Spark SQL编程DataFrame 创建_大数据培训

zjjcchina的博客

08-15

319

在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口，创建DataFrame有三种方式：通过Spark的数据源进行创建；从一个存在的RDD进行转换；还可以从Hive Table进行查询返回。（1）查看Spark数据源进行创建的文件格式。（2）读取json文件创建DataFrame。3）从Hive Table进行查询返回。1）从Spark数据源进行创建。2）从RDD进行转换。2.5节我们专门讨论。...

LearningSpark(7)：SparkSQL创建及DataFrame学习

lzw2016的博客

03-06

293

DataFrame说白了就是RDD+Schema（元数据信息），spark1.3之前还叫SchemaRDD，以列的形式组织的分布式的数据集合 Spark-SQL 可以以 RDD 对象、Parquet 文件、JSON 文件、Hive 表，以及通过JDBC连接到其他关系型数据库表作为数据源来生成DataFrame对象如何创建Spark SQL的入口同Spark Core要先创建SparkCont...

Spark（15）：SparkSQL之DataFrame

yang_shibiao的博客

07-06

1185

这里的 spark 不是 Scala 中的包名，而是创建的 sparkSession 对象的变量名称，所以必须先创建 SparkSession 对象再导入。这里的 spark 对象不能使用 var 声明，因为 Scala 只支持val 修饰的对象的引入。如果是数字，默认作为 Int 处理；但是从文件中读取的数字，不能确定是什么类型，所以用 bigint 接收，可以和Long 类型转换，但是和 Int 不能进行转换。注意：普通临时表是 Session 范围内的，如果想应用范围内有效，可以使用全局临时表。

sparksql中三种方式创建DataFrame

一个射手座程序猿

10-26

363

sparksql中三种方式创建DataFrame

Spark SQL之DataFrame的使用

威少（微笑）

06-09

3244

目录一：spark sql作用二：DataFrame 三：SQLContext与HiveContext 四：创建DataFrame以及常用方法一：spark sql作用 Spark SQL是Spark中的一个模块主要用于进行结构化数据的处理，作为分布式的SQL查询引擎二：DataFrame 1.DataFrame的作用：是Spark SQL提供的最核心的编程抽...

sparksql怎么知道dataframe的字段名