Spark 中创建 DataFrame 的2种方式对比

闯闯桑

已于 2025-03-15 16:17:20 修改

阅读量888

点赞数 26

文章标签： spark 大数据分布式 scala

于 2025-03-15 16:13:38 首次发布

本文链接：https://blog.youkuaiyun.com/m0_63322122/article/details/146280949

版权

spark.createDataFrame(data).toDF("name", "age")

和

spark.createDataFrame(spark.sparkContext.parallelize(data), schema)

创建df的方式有什么区别？

在 Spark 中，创建 DataFrame 的方式有多种，其中两种常见的方式是：

spark.createDataFrame(data).toDF("name", "age")
spark.createDataFrame(spark.sparkContext.parallelize(data), schema)

这两种方式的主要区别在于 数据来源 和 模式（Schema）的定义方式。下面详细分析它们的区别和适用场景。

1. `spark.createDataFrame(data).toDF("name", "age")`

特点

数据来源：data 是一个本地集合（如 Seq 或 List），Spark 会将其并行化为分布式数据集（RDD）。
模式推断：Spark 会自动推断数据的模式（Schema），并根据列的顺序为列命名。
列名指定：通过 toDF("name", "age") 显式指定列名。

示例

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
  .appName("DataFrame Example")
  .master("local[*]")
  .getOrCreate()

// 数据

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

闯闯桑

关注关注

26
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark学习:如何创建DataFrame？

nzbing的博客

01-22

3838

一、从RBDMS(关系型数据库)创建DataFrame 1、spark安装目录没有提供与数据库连接相关的Jar包,因此,对于想访问的数据库,需要把相关的Jar包拷贝到SPARK_HOME的Jars文件夹,在此贴上我的配置 spark:3.1.2 oracle:Personal Oracle Database 11g Release 11.2.0.1.0 - 64bit Production jar:ojdbc6.jar 2、使用spark的read API读取数据库,通过参数指定数据库驱动、数据库地址、用户

Spark SQL | DataFrame的各种玩法

weixin_43646592的博客

06-28

983

Spark SQL | DataFrame的各种玩法

参与评论您还未登录，请先登录后发表或查看评论

spark创建DF的两种方式

xiaoyaGrace的博客

11-04

1267

方式一：反射：(使用这种方式来创建DF是在你知道字段具体有哪些) 1.创建一个SparkContext，然后再创建SQLContext 2.先创建RDD，对数据进行整理，然后关联case class，将非结构化的数据转换成结构化数据 3.显示的调用toDF方法，将RDD转换成DF（需要隐私转换） 4.注册临时表 5.执行SQL(T...

go json int转化string_Go 每日一库之 zap

weixin_31437187的博客

12-25

551

简介在很早之前的文章中，我们介绍过 Go 标准日志库log和结构化的日志库logrus。在热点函数中记录日志对日志库的执行性能有较高的要求，不能影响正常逻辑的执行时间。uber开源的日志库zap，对性能和内存分配做了极致的优化。快速使用先安装：$gogetgo.uber.org/zap后使用：packagemainimport("time""go.uber.org/za...

Spark创建DataFrame的三种方法

热门推荐

martin_liang的专栏

03-29

4万+

转自：https://vimsky.com/article/2708.html跟关系数据库的表(Table)一样，DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。创建DataFrame有很多种方法，比如从本地List创建、从RDD创建或者从源数据创建，下面简要介绍创建DataFrame的三种方法。方法一，Spark...

Spark: createDataFrame() vs toDF()

wuyy0224的博客

10-14

2381

通过使用toDF()方法，我们不能控制模式的定制，而在createDataFrame()方法中，我们可以完全控制模式的定制。列名的列类型为字符串，可归零标志为真，同样，列年龄的列类型为整数，可归零标志为假。所以，从上面我们可以得出结论，在toDF()方法中，我们不能控制列的类型和nullable标志。当我们在集群上运行我们的代码或在生产中运行我们的代码时，使用createDataFrame()方法是很好的，因为它有利于本地测试。通过createDataFrame()方法，我们可以控制完整的模式定制。

SparkSQL DataFrame的介绍及创建

小叮当的博客

11-30

711

DataFrame是以二维表格形式的数据存储结构。在SparkSQL中同样是分布式数据集，有分区并且可以并行计算。StructType对象是描述整个DataFrame的表结构。StructField对象描述一个列的信息。Row对象记录一行数据。Column对象记录一列数据并包含列信息。相同点：都是弹性分布式数据集。不同点：DataFrame：存储结构限定为二维表结构化数据。RDD：存储数据没有任何限制。

Spark Sql 和DataFrame总结

cjl的博客

10-21

1717

Spark Sql 和DataFrame总结Spark Sql总结1. Spark SQL概述2. DataFrame2.1 DataFrame概述2.2 DataFrame vs RDD 区别2.3 Pandas DataFrame vs Spark DataFrame3. DataFrame 操作3.1 创建DataFrame3.1.1 从RDD创建DataFrame3.1.2 从CSV文件创建DataFrame3.1.3连接数据库3.1.4 读取json数据3.2 DataFrame操作3.3 综合

Spark SQL DataFrame 算子

2401_84052244的博客

07-31

3354

DataFrame 算子与 SQL 查询语句之间，并没有优劣之分，他们可以实现同样的数据应用，而且在执行性能方面也是一致的。因此，你可以结合你的开发习惯与偏好，自由地在两者之间进行取舍。DataFrame 本身支持的算子之外，在功能上，SQL 完全可以实现同样的数据分析。给定 DataFrame，你只需通过 createTempView 或是 createGlobalTempView 来创建临时表，然后就可以通过写 SQL 语句去进行数据的探索、倾斜、转换与分析。

Spark创建空的df

南风知我意

11-18

1210

Spark创建空df

Spark创建DataFrame

AaronCao

09-24

987

1. DataFrame 在Spark中可以通过RDD转换为DataFrame，也可以通过DataFrame转化为RDD，DataFrame可以理解为数据的一个格式，实质show()就是一张表。读取数据构造DataFrame主要有以下几种方式：从Json文件中读取通过SQLContext构造类对象构造DataFrame 动态创建Schema构造当前的DataFrame结构从parquet文件中读取从MySQL中读取数据从Hive中读取数据 2. 从json文件读取构造DataFrame p

Spark创建Dataframe的方法

weixin_45744450的博客

01-02

641

通过RDD创建dataframe的方式1: 把rdd[T]变成 RDD[case class类型]就可以直接toDF 通过RDD[tuple]创建dataframe 通过RDD[JavaBean]创建dataframe 通过RDD[scala bean] 创建dataframe 通过 RDD[Row] 来创建dataframe 1.通过RDD创建dataframe import org.apa...

Spark DataFrame之创建DataFrame

Toby的博客

04-06

3016

创建DataFrame的各种例子代码，主要是用来构造测试用例，方便快速测试方法、UDF之类。参考spark官方文档总共15个例子，每个例子分别使用了scala和python语言code，两种语言的例子是一一对应的，序号相同的就是同一个例子。包括Array、Seq数据格式存储的数据，包括稀疏向量、稠密向量的特征列，包括含有缺失值的列等，看完就再也不怕用各种奇形怪状的数据类型来创建DataFrame了。一、In Scala 1、常规情况 val dataset = spark.create

Spark---创建DataFrame的方式

yaya_jn的博客

11-30

2127

5、DataFrame是一个Row类型的RDD，df.rdd()/df.javaRdd()。3、DataFrame原生API可以操作DataFrame。4、注册成临时表时，表中的列默认按ascii顺序显示列。2、df.show()默认显示前20行数据。ErrorIfExists：如果存在就报错。1、可以两种方式读取json格式的文件。两种方式创建DataFrame。Ignore：如果存在就忽略。Overwrite：覆盖。

Spark DataFrame操作

just C/C++

10-27

998

操作的对应的视频如下，在腾讯课堂可免费查看所有的视频与下载简介资料个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com) PySpark的认识和使用简介 DataFrame在Spark 1.3时加入，其前身是Spark 1中的SQL Context、Streaming Context、Hive Context等对象，它类似于关系数据库中的表，是行和列进行组织数据。 DataFrame相当是一张二维表，可以使用SparkSession中的各种函数来创建。按照

Spark创建DataFrame的三种方式

a805814077的博客

05-29

1318

使用scala或python创建DataFrame的方法

spark sql与dataframe

Spark 中创建 DataFrame 的2种方式对比

1. spark.createDataFrame(data).toDF("name", "age")

特点

示例

1. `spark.createDataFrame(data).toDF("name", "age")`