SparkSQL（4）——Spark SQL DataSet操作

最新推荐文章于 2022-09-01 20:54:00 发布

原创最新推荐文章于 2022-09-01 20:54:00 发布 · 2.5k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#SparkSQL #DataSet

Spark 专栏收录该内容

27 篇文章

订阅专栏

DataSet

1、DataSet是什么？

DataSet是分布式的数据集合，DataSet提供了强类型支持，也是在RDD的每行数据加了类型约束。
DataSet是在Spark1.6中添加的新的接口。
它集中了RDD的优点（强类型和可以用强大lambda函数）以及使用了Spark SQL优化的执行引擎。
可以通过JVM的对象进行构建DataSet。
DataSet可以用函数式的转换（map/flatmap/filter）进行多种操作。

2、DataFrame与DataSet的区别

DataSet包含了DataFrame的功能，Spark2.0中两者统一，DataFrame表示为DataSet[Row]，即DataSet的子集。
DataSet可以在编译时检查类型
DataSet是面向对象的编程接口

3、DataFrame与DataSet互相转换

DataFrame转为 DataSet

df.as[ElementType] 这样可以把DataFrame转化为DataSet。

val ds=personDF.as[Person]

DataSet转为DataFrame

ds.toDF() 这样可以把DataSet转化为DataFrame。
在这里插入图片描述

4、DataSet的创建

从一个已经存在的scala集合来构建

 val ds1=spark.createDataset(List(1,2,3,4,5,6))
val ds2=List(1,2,3,4,5,6).toDS

从一个已经存在的rdd中来构建

val ds3=spark.createDataset(sc.textFile("/person.txt"))

通过dataFrame转换生成

 dataSet=dataFrame.as[强类型]

在这里插入图片描述

Dataset相关方法

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Fenggms

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

一文让你了解DataSet处理Sql的各种实战技巧

进击的数据小白

11-06

2884

Spark【Spark SQL（三）DataSet】

最新发布

功不唐捐，玉汝于成

09-10

1110

Spark DataSet的创建与使用，RDD、DataFrame 和 DataSet 之间的相互转换

参与评论您还未登录，请先登录后发表或查看评论

SparkSQL

wz_TXWY的博客

09-27

836

SparkSQL SparkSQL Table of Contents 1. SparkSQL 是什么 1.1. SparkSQL 的出现契机 1.2. SparkSQL 的适用场景 2. SparkSQL 初体验 2.3. RDD 版本的 WordCount 2.2. 命令式 API 的入门案例 2.2. SQL 版本 WordCount 3. [扩展] C...

SparkSQL之DataSet

王傲旗的大数据之路

06-12

619

Dataset是具有强类型的数据集合，需要提供对应的类型信息。创建一个DataSet吧先 1）创建一个样例类 scala> case class Person(name: String, age: Long) defined class Person 2）创建DataSet scala> val caseClassDS = Seq(Person("Andy", 32)).toDS() caseClassDS: org.apache.spark.sql.Dataset[Person] = [n

Spark SQL编程之DataSet

hu10131013的博客

04-24

1485

DataSet是什么是Dataframe API的一个扩展，是Spark最新的数据抽象。具有类型安全检查也具有Dataframe的查询优化特性，API风格更友好 DataSet支持编解码器，当需要访问非堆上的数据时可以避免反序列化整个对象，提升效率样例类被用来在Dataset中定义数据的结构信息，样例类中每个属性的名称直接映射到DataSet中的字段名称 Dataframe是Dataset的特列，DataFrame=Dataset[Row]，所以可以通..

Spark SQL与DataSet

mingyunxiaohai的专栏

08-01

2157

Spark SQL的架构图 Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部，Spark SQL使用此额外信息来执行额外的优化 Spark SQL执行计划生成和优化都由Catalyst完成 DataSet是分布式数据集合。Dataset是Spark ...

SparkSQL编程之DataSet

ITBOY_ITBOX博客

05-14

286

DataSet Dataset是具有强类型的数据集合，需要提供对应的类型信息。创建 1）创建一个样例类 scala> case class Person(name: String, age: Long) defined class Person 2）创建DataSet scala> val caseClassDS = Seq(Person("Andy", 32))...

sparkSQL---Dataset讲解

weixin_43866709的博客

03-31

675

在sparkSQL中推出了一个叫做Dataset的数据集，它是对RDD的一个智能的封装。官方文档中对Dataset的介绍很详细：接下来我们再来看一下Dataset源码中的说明： /** * A Dataset is a strongly typed collection of domain-specific objects that can be transformed * in par...

sql dataset

ruhender_vulkan的专栏

05-18

415

//建立连接 SqlConnection connection = new SqlConnection(@"Data Source=localhost;Initial Catalog=zl;user id=admin;pwd=admin"); connection.Open(); //查询语句字符串 SqlD

SparkSQL DataSet

Running_Tiger的博客

03-10

1720

SparkSQL DataSet1、概念DataSet是分布式的数据集合。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点（强类型和可以用强大lambda函数）以及Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建，可以用函数式的转换（map/flatmap/filter）进行多种操作。2、DataFrame、DataSet、RDD的区别假设RDD中

Spark SQL之Dataset

派大星的博客

09-01

1157

Dataset

DataSet 使用 Sql語法

.NET技术专栏

03-06

1210

//獲取第三層Menu的數據 DataRow []drwLevel2=dstData.Tables[0].Select(" Menu3RD= And Menu2ND="+drwLevel1[L1]["MenuID"].ToString()+"");

Spark SQL（二）之DataSet操作

茅坤宝骏氹的博客

03-26

2649

一、创建DataSet 使用SparkSession，应用程序可以从现有的RDD，Hive表的或Spark数据源创建DataFrame 。（1）基于JSON的内容创建一个DataFrame //hdfs Dataset<Row> df = spark.read().json("hdfs://master:9000/test.json"); //rdd RDD<String> jsonRDD = ... Dataset<Row> df = spark.read(

SQL：DataSet，T-SQL

问道于旁

08-13

884

DataSet 作用：DataSet，DataAdapter读取数据。问：什么是DataAdapter？答：DataAdapter对象在DataSet与数据之间起桥梁作用 string strConn="uid=账号;pwd=密码;database=数据库;server=服务器";//SQL Server链接字符串 SqlConnection ConnSql=new SqlC

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

weixin_30877755的博客

08-12

218

一、Spark SQL简介 Spark SQL 是 Spark 中的一个子模块，主要用于操作结构化数据。它具有以下特点：能够将 SQL 查询与 Spark 程序无缝混合，允许您使用 SQL 或 DataFrame API 对结构化数据进行查询；支持多种开发语言；支持多达上百种的外部数据源，包括 Hive，Avro，Parquet，ORC，JSON 和 JDBC 等；支持 Hi...

初学spark基本操作SparkSession、Dataset<Row>

热门推荐

fearlessnesszhang的博客

05-08

1万+

RDD的具体描述RDD（弹性分布式数据集）是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合，它提供了一种只读、只能有已存在的RDD变换而来的共享内存，然后将所有数据都加载到内存中，方便进行多次重用。a.他是分布式的，可以分布在多台机器上，进行计算。 b.他是弹性的，计...

【SparkSQL笔记】SparkSQL的Dataset操作大全（二）

菜鸟sdut的博客

12-08

3944

SparkSQL的Dataset/DataFrame操作大全简介说明 1. Spark程序中利用SparkSession对象提供的读取相关数据源的方法读取来自不同数据源的结构化数据，转化为Dataset（DataFrame），当然也可以将现成RDDs转化为Dataset（DataFrame），在转化为Dataset（DataFrame）的过程中，需自识别或指定Dataset（DataFrame...

asp.net 中 sql dataset 显示数据

dcssn

01-06

599

protected void Button1_Click(object sender, EventArgs e) { //连接数据库 String str = "Data Source=DC-BOY;Initial Catalog=MyData;Integrated Security=True"; SqlConnection conn = n

.Net的DataSet直接与SQL2005交互

jinjazz

04-02

3286

DataSet在无适配器的情况下需要与SQL2005数据库交互，可以通过SQL语句分解DataSet序列化之后的xml来生成查询结果集，然后去批量更新或者追加数据。测试代码如下 Normal 0 7.8 磅 0 2 false false false EN-US

spark 系列（八）—— spark sql 之 dataframe和dataset

06-28

Spark SQL中的DataFrame和Dataset是两种非常重要的数据结构，它们都是基于RDD的分布式数据集，但是它们提供了更高级别的API，可以更方便地进行数据处理和分析。 DataFrame是一种类似于关系型数据库中表的数据结构，...