Spark 创建Dataframe和创建空的DataFrame

最新推荐文章于 2025-03-15 16:13:38 发布

转载最新推荐文章于 2025-03-15 16:13:38 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/qq_37554565/article/details/111663781

文章标签：

#spark

spark 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了如何使用Spark创建DataFrame，包括隐式转换（如case-class和RDD toDF）以及通过RowRdd和Schema构建DataFrame的过程。重点讲解了两种转换方法的实战应用和Schema的重要性。

创建空的DataFrame

var ret = spark.emptyDataFrame

1. 隐式转换toDF

1）使用case-class

引入隐式转换的包

import sqlContext.implicits._

创建case-class的Rdd

    val rdd: RDD[Person] = sc.parallelize(Array(
      Person("fanghailiang", 29),
      Person("sunyu", 28),
      Person("jiaolu", 26),
      Person("dingzelin", 31)
    ))

转换成DataFrame

val df: DataFrame = rdd.toDF()

2）将二元数组直接转换为DataFrame

val rdd2: RDD[(String, Int)] = sc.parallelize(Array(
    ("fanghailiang", 29),
    ("sunyu", 28),
    ("jiaolu", 26),
    ("dingzelin", 31)
))
 
val df2: DataFrame = rdd2.toDF("name2", "age3")

2.通过RowRdd+Scheme

1, 构建RowRdd

    val rowRdd: RDD[Row] = sc.parallelize(Array(
      ("fanghailiang", 29),
      ("sunyu", 28),
      ("jiaolu", 26),
      ("dingzelin", 31)
    )).map{
      case (name, age) => {
        Row(name, age)
      }
    }

2. 构建scheme

    val schema: StructType = StructType(Array(
      StructField("name", StringType, false),
      StructField("age", IntegerType, false)
    ))

3. 创建DataFrame

val df3: DataFrame = sqlContext.createDataFrame(rowRdd, schema)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

瑾明达2号

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark创建空的DataFrame

主要分享大数据相关的知识，如Spark、Hudi

08-16

1万+

我的原创地址：https://dongkelun.com/2018/08/14/sparkEmptyDataFrame/ 前言本文主要给出Spark创建空的DataFrame的代码示例，这里讲的空的DataFrame主要指有列名（可以自己随意指定），但是没有行的DataFrame，因为自己在开发过程中有这个需求，之前并不知道怎么创建，就查了一下，发现资料并不多，不知道因为太简单还是用的人少~......

python中构造出一个空的DataFrame，并在循环中不断往dataframe里面添加内容

微信公众号（年更选手）：数据闲逛人 | Github开源项目：数分/数挖study路线 https://github.com/jc-dian/python_data_analysis

04-20

5998

这是管培期间的一个学习任务里面其中解决问题用到的方法关键是下面的result.loc()巧妙地利用len()获取dataframe数据长度 import pandas as pd import numpy as np # 构造表格2数据 data = pd.DataFrame({'product_num':['A','B'], 'kk_big_category':['美妆','食品'], 'kkv_big_catego

参与评论您还未登录，请先登录后发表或查看评论

spark创建空dataframe

bitcarmanlee的博客

03-23

1065

源码中已经很明确告诉我们，emptyDataFrame创建了一个不含任何行列且schema为空的dataframe。项目中会需要用到创建空的dataframe。spark提供了emptyDataFrame方法，可以直接创建。错误信息也很直观，emptydf是0 columns，df是2 columns，所以无法直接union。为了解决上面的问题，我们需要在生成emptyDataFrame的时候指定schema。这个空的dataframe在实际中用途有限，比如如下场景。上面的方法运行时候直接抛出错误信息。

Spark 如何生成一个空的DataFrame

weixin_39031707的博客

06-21

2812

@羲凡——只为了更好的活着 Spark 如何生成一个空的DataFrame Q：Spark如何生成一个空的DataFrame A：有两种情况，一种是没有列的DataFrame，一种是有列的DataFrame，情况2最实用情况1.生成一个无列的空DataFrame val df = spark.emptyDataFrame 1 情况2.生成一个有列的空DataFrame // 生成一个空的三列Da...

JAVA spark创建DataFrame的方法

09-07

下面将详细介绍如何在Java中使用Spark创建DataFrame。首先，创建SparkSession是使用Spark的第一步。SparkSession是Spark 2.x引入的，它是SparkSession、SQLContext和HiveContext的统一接口，用于执行Spark SQL和...

Spark 中创建 DataFrame 的2种方式对比

m0_63322122的博客

03-15

983

适合简单场景，自动推断模式。：适合复杂场景，显式定义模式。根据数据结构和需求选择合适的方式即可！如果还有其他问题，欢迎继续提问。

Spark学习:如何创建DataFrame？

nzbing的博客

01-22

3884

一、从RBDMS(关系型数据库)创建DataFrame 1、spark安装目录没有提供与数据库连接相关的Jar包,因此,对于想访问的数据库,需要把相关的Jar包拷贝到SPARK_HOME的Jars文件夹,在此贴上我的配置 spark:3.1.2 oracle:Personal Oracle Database 11g Release 11.2.0.1.0 - 64bit Production jar:ojdbc6.jar 2、使用spark的read API读取数据库,通过参数指定数据库驱动、数据库地址、用户

Spark：DataFrame介绍及使用

m0_70882914的博客

10-13

1630

DataFrame介绍及使用

精选资源

Spark2.X创建DataFrame的多种方式

01-07

1、Case Class 创建DataFrame 2、Tuple 创建DataFrame 3、JavaBean 创建DataFrame 4、Json 创建DataFrame 5、Row 创建DataFrame 6、set集合创建DataFrame 7、map集合创建DataFrame 8、Array数组创建DataFrame 9、...

SparkSQl-DataFrame创建

m0_52680439的博客

11-12

462

反观 RDD，由于无从得知所存数据元素的具体内部结构，Spark Core 只能在 stage 层面进行。调用RDD中的toDF方法转换为DataFrame对象，由于RDD与DataFrame转换需要引入隐式转换规则，否则无法进行转换。5.DSL语法：涉及到运算的时候, 每列都必须使用$, 或者采用引号表达式：单引号+字段名。与 RDD 的主要区别在于，前者带有 schema 元信息，即。所表示的二维表数据集的每一列都带有名称和类型，从而对藏于。（1）读取CSV文件创建DataFrame。

Spark – How to create an empty DataFrame?

wuyy0224的博客

10-07

374

【代码】Spark – How to create an empty DataFrame?

sparksql 多分区读RDS的两种方式(mysql 为例)

Java_Hadoop的博客

08-14

858

sparksql 多分区读rds 的两种实现方式及实例

Spark中DataSet的基本使用

weixin_42702831的博客

09-07

2万+

DataSet介绍使用alt +组合键可以查看相关类型什么是DataSet DataSet是分布式的数据集合，Dataset提供了强类型支持，也是在RDD的每行数据加了类型约束。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点（强类型和可以用强大lambda函数）以及使用了Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建，可以用函数式的...

java dataframe map_JAVA spark创建DataFrame的方法

weixin_32226157的博客

02-16

507

述说正传，接下来开始说正事。以前用Python和Scala操作Spark的时候比较多，毕竟Python和Scala代码写起来要简洁很多。今天一起来看看Java版本怎么创建DataFrame，代码写起来其实差不多，毕竟公用同一套API。测试数据可以参考我之前的文章。先来总结下Spark的一般流程：1，先创建Spark基础变量，spark，sc2，加载数据，rdd.textFile，spark.rea...

Spark中DataFrame的常用操作

weixin_45063703的博客

09-08

755

前言 spark作为分布式计算框架，在工业界占据了比较主流的地位。spark同样也提供了DataFrame供用户使用。本文介绍DataFrame的一些常用操作操作先来简单介绍主程序 json文件 {"name": "nian"} {"name": "li","age": 34} {"name": "qian","age": 24} 代码 scala> import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Spa

sparkSQL创建仅带schema的空目录

md_2014的博客

07-17

377

sparkSQL创建零数据的schema的空目录

Spark创建DataFrame的三种方法