spark json,csv作为数据源操作

最新推荐文章于 2024-10-15 15:14:28 发布

原创最新推荐文章于 2024-10-15 15:14:28 发布 · 485 阅读

0 ·

CC 4.0 BY-SA版权

大数据专栏收录该内容

36 篇文章

订阅专栏

本文详细介绍如何使用SparkSession进行SparkSQL操作,包括创建SparkSession、读取JSON和CSV数据源、处理数据、触发Action以及关闭资源等关键步骤。

1、sparkSQL操作需要创建SparkSession

val sparkSession:SparkSession = SparkSession.builder()
.appName("JdbcSource")
.master("local[2]")
.getOrCreate()

2、读取json,csv数据源

val jread:DataFrame = sparkSession.read.json("e:/saveJson")
val jread:DataFrame = sparkSession.read.csv("e:/saveCsv")
import sparkSession.implicits._

3、处理数据

val fread:Dataset[Row] = jread.filter($"xueyuan" === "bigdata")

val jfread:DataFrame = jread.toDF("id","xueyuan")//这里相当于给数据集重命名
val rs = jfread.filter($"id" <3)
rs.show

4、触发action

fread.show()

5、关闭资源

sparkSession.stop()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

方兵兵

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark SQL 多数据源操作（Scala）

Junds0的博客

04-25

2028

文件中会对列加入统计信息: 包括列的 max, min, sum 等, 因此可以在 sql 查询时进行 RBO 中的谓词下推。本关任务：根据编程要求，完善程序，实现 Spark SQL 读取 ORC 格式的 Hive 数据表。本关任务：根据编程要求，编写 Spark 程序读取指定数据源，完成 Parquet 分区任务。本关任务：根据编程要求，读取本地文件，将数据使用 JDBC 方式进行保存。本关任务：根据编程要求，编写 Spark 程序读取指定数据源，完成任务。Spark SQL 保存数据到 Hive。

4.2.3 Spark SQL 手动指定数据源

最新发布

howard2005的专栏

05-30

801

在本节实战中，我们学习了如何在Spark SQL中手动指定数据源以及如何使用`format()`和`option()`方法。通过案例演示，我们读取了不同格式的数据文件，包括CSV、JSON，并从JDBC数据源读取数据，展示了如何将这些数据转换为DataFrame，并保存为不同的文件格式。例如，我们将CSV文件读取为DataFrame，并设置了表头和分隔符，然后将JSON文件保存为Parquet和CSV格式。此外，我们还从MySQL数据库读取数据并将其保存为JSON文件。

参与评论您还未登录，请先登录后发表或查看评论

csv数据源的创建（一）

weixin_33697898的博客

08-20

361

当BW系统需要的数据不在R/3系统而且数据量也不是很大时，可以使用外部csv文件作为数据源的方式把数据导入BW系统。本节就是介绍csv数据源的建立（不包括IP包和之后的DTP和转换）。本文就是针对CSV作为数据源的创建方法 rsa1 数据仓库工作台在如图所示的信息范围创建“现金流代码”数据源。填入合适的名称，源系统中需要选择外部文件的源系统，数据类型根据需要导入对象而定。...

全国城市地区CSV数据库

10-02

非常全的全国城市地区CSV数据库，一级为中国，包含全国的所有省、市、县、区，适用于网店城市分类信息导入。

python从CSV导入数据源文件

11-05

CSV是指逗号分隔的值，文件中还包括一个文件头，也是以逗号分隔的。python从CSV导入数据源文件

csv数据源的创建(二)

weixin_34268753的博客

08-20

126

下面切换到“建议”选项卡，点击“装载实例数据”按钮，取得系统得到的建议，如图设置：切换到字段选项卡，如图所示：下面三行是系统自动得到的字段，红色区域是需要手动填写的信息对象模板，以方便以后创建转换时进行自动匹配。最后切换到预览选项卡下，点击读取预览数据按钮，会得到按照这些配置能得到的药导入BW系统的数据实例：最后的操作是激活...

Spark 读取 csv 时,当 csv 的字段值中有 JSON 串

TMH_ITBOY的博客

04-15

1607

Spark 读取 csv 时,当 csv 的字段值中有 JSON 串需求:统计 csv 中有 json 串的 key 个数 csv 数据: 代码: package com.rm1024.scala import com.alibaba.fastjson.JSON import org.apache.spark.sql.SparkSession import scala.collectio...

Spark SQL与外部数据源：CSV, JSON, Parquet 操作指南

"Spark SQL支持多种外部数据源，包括CSV、JSON和Parquet等，使得数据处理更加灵活和高效。本文档将详细介绍如何使用Spark SQL与这些数据源进行交互，包括读取和写入数据以及相关的配置选项。" ## 一、简介 ### 1.1 ...

Spark SQL与外部数据源的操作（Spark SQL ——＞ CSV/JSON/Parquet/hive/mysql）

monstarerv的博客

01-11

440

目录一、Spark SQL支持的外部数据源 二、Spark SQL —> CSV 2.1 读CSV文件 a.有列名 b.无列名 2.2 写CSV文件三、Spark SQL —> JSON 3.1 读JSON文件 3.2 写JSON文件四、Spark SQL —> Parquet 读&写 Parquet文件五、Spark SQL —>Hive 5.1 Spark集成Hive 5.2 IDEA

Spark数据源的读取与写入、自定义函数

m0_70882914的博客

10-15

772

Spark数据源的读取与写入、自定义函数

SparkSQL的CSV数据源和Parquet数据源

while false

10-25

554

1.CSV数据源 package cn.ysjh0014.SparkSql import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession} object SparkSqlCsv { def main(args: Array[String]): Unit = { val session: SparkSes...

读取csv清洗数据_四十、SparkSQL读取csv数据源

weixin_36308543的博客

01-12

414

Spark读取csv数据源SparkSQL支持多种数据源的读写，也支持csv数据源的读写。csv是一种以逗号分隔格式的文件。1.构建csv数据集honglou.csv1,贾宝玉,25,男,红楼梦,曹雪芹2,林黛玉,20,女,红楼梦,曹雪芹3,薛宝钗,22,女,红楼梦,曹雪芹4,史湘云,19,女,红楼梦,曹雪芹5,王熙凤,23,女,红楼梦,曹雪芹6,秦可卿,18,女,红楼梦,曹雪芹7,贾琏,28,男...

Spark SQL——JSON数据源

wangzhangni的博客

11-18

218

Spark SQL可以自动推断JSON文件的元数据，并且加载其数据，创建一个DataFrame。可以使用SQLContext.read.json()方法，针对一个元素类型为String的RDD，或者是一个JSON文件。但是要注意的是，这里使用的JSON文件与传统意义上的JSON文件是不一样的。每行都必须，也只能包含一个，单独的，自包含的，有效的JSON对象。不能让一个JSON对象分散在多...

spark处理CSV与json格式文件

weixin_44927710的博客

07-13

861

1、spark处理json格式文件： spark2.0之后可以直接使用sparksession创建appname与master 创建后使用format（“json”）.load（“path”）方式即可得到json文件的dataframe val spark=SparkSession.builder().appName(“DataFrameApi”).master(“local”).getOrCreate() val jDF=spark.read.format(“json”).load(“f://scala.

在线json 转 CSV或者Excel

liuxiangke0210的专栏

10-29

8146

有地段json文件，需要转换为csv 或者Excel，有同时说打算用python写，但是在网上找到了一个地址，可以转换1个M一下的文件。恰好符合需求，所以收藏下。网站收藏地址：https://json-csv.com/...

装载CSV数据源、装载json数据源、spark读取jar包执行scala操作

qzc_root的博客

05-11

194

文章目录装载CSV数据源sparkcontext操作sparksession装载json数据源sparkcontext操作sparksession操作spark读取jar包执行scala操作配置文件：scala代码：打包：删除jar包中的安全文件读取包执行scala操作装载CSV数据源 sparkcontext操作 val conf = new SparkConf().setMaster("local[*]").setAppName("csvDemo") val sc = SparkContext

Spark SQL加载操作csv、json文件

菜鸟也学大数据的博客

11-12

390

加载操作文件 csv格式 object SelectCSV { def main(args: Array[String]): Unit = { //获取SparkSession实例 val conf = new SparkConf().setMaster("local").setAppName("select") val spark = SparkSession.builder().config(conf).getOrCreate() //加载cav格式文件 val

Pandas 处理CSV文件数据集（五）

分享我的点点滴滴，在成长路上与你同行！

09-14

7479

Pandas 处理CSV文件数据集

spark如何处理CSV文件中有一列元素为json数组类型

stream1212388的博客

06-26

309

将列中的数据转化为json类型，并赋值为genres，将genre中的id和name变为列并显示结果。在处理数据时，发现数据中有json数组，如图所示。在genres那一列中有一个json类型的。然后根据json类型创建schema。先通过spark来把数据读取。