Spark数据读写--HDFS、HBase、Json

最新推荐文章于 2024-04-04 22:13:40 发布

MusicDancing

最新推荐文章于 2024-04-04 22:13:40 发布

阅读量684

点赞数

分类专栏： spark 文章标签： spark big data

本文链接：https://blog.youkuaiyun.com/MusicDancing/article/details/120102640

版权

1. 本地文件的读写

1.1 读文件

import org.apache.spark.sql.SparkSession

val inputPath = "file:///Users/zz/Desktop/aa.sh"
val rdd = spark.sparkContext.textFile(inputPath)

上面代码执行后，因为Spark的惰性机制，并不会真正执行，所以即使路径错误，此时也不会报错。

1.2 写文件

val outputPath = "/Users/zz/Desktop/output"
rdd.saveAsTextFile(outputPath)
// 再次加载
val rdd = spark.sparkContext.textFile(outputPath)

2. HDFS文件的读写

val inputPath = "hdfs://localhost:9000/user/zz/aa.sh"
val rdd = spark.sparkContext.textFile(inputPath)
val outputPath = "hdfs://localhost:9000/user/zz/output"
rdd.saveAsTextFile(outputPath)

3. JSON文件的读写

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。

aa.json

{"name": "aa"} {"name": "bb", "age":30}{"name": "cc", "age":18}

val inputPath = "/Users/zenmen/Desktop/aa.json"
val rdd = spark.sparkContext.textFile(inputPath)
rdd.foreach(println)

JSON数据解析

import scala.util.parsing.json.JSON

val inputPath = "/Users/zenmen/Desktop/aa.json

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MusicDancing

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark读取HDFS写入Hive

杨鑫newlife的专栏

05-22

5277

package com.xxxx.report.service; import com.google.common.collect.Lists; import com.xx.report.config.Constants; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.function.Fun...

java spark读写hdfs_Spark学习笔记——读写HDFS

weixin_28952093的博客

02-24

1138

使用Spark读写HDFS中的parquet文件文件夹中的parquet文件build.sbt文件name := "spark-hbase"version := "1.0"scalaVersion := "2.11.8"libraryDependencies ++= Seq("org.apache.spark" %% "spark-core" % "2.1.0","mysql" % "mysql-...

参与评论您还未登录，请先登录后发表或查看评论

Spark学习笔记——读写HDFS

weixin_33881140的博客

04-18

1141

使用Spark读写HDFS中的parquet文件文件夹中的parquet文件 build.sbt文件 name := "spark-hbase" version := "1.0" scalaVersion := "2.11.8" libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "2.1.0"

spark读写hdfs

学习进步

09-24

471

package sparkUtil import org.apache.spark.SparkConf import org.apache.spark.sql.{SaveMode, SparkSession} object SparkHDFS { def main(args: Array[String]): Unit = { val sparkConf = new SparkCo...

Spark跨集群读取HDFS文件

一个数据小开发的博客

12-21

3238

大家平时可能都是在本集群上读取本地的HDFS文件，那如果我有两套集群呢？这个时候该如何读取另外一套集群上面的HDFS文件呢？废话不多说，直接上代码，如果代码有关于一些nameservices等这些信息不知道去哪里看的人，可以翻翻我之前的博客，或者私信我。

Spark将HDFS数据导入到HBase

12-26

1614

Author: FuRenjie 本程序运行环境：Spark+HDFS+HBase+Yarn hbase表结构为：表名table，列族fam,列为col。第一步：上代码 object inputHbase： import org.apache.hadoop.hbase.client._ import org.apache.hadoop.hbase.util

spark-2.4.2-bin-hadoop2.7.tgz

06-17

9. **Hadoop兼容性**：Spark 2.4.2兼容Hadoop 2.7，这意味着它可以无缝接入HDFS和其他Hadoop相关的数据存储系统，如HBase、Hive等。 10. **性能优化**：在2.4.2版本中，Spark针对各种操作进行了大量性能优化，包括...

Scala（spark）读写Hbase示例

一个垃圾堆

05-23

2001

由于网上找到的版本都比较老旧，记录一版现在在用的版本的Scala读写Hbase示例。Scala2.11.8；Spark2.1.0。仅在本机集群通过，供参考。 package test import org.apache.hadoop.conf.Configuration import org.apache.hadoop.hbase._ import org.apache.hadoop.hbase...

Hadoop + Spark + Hbase (一)

Courage-Hu的专栏

02-27

797

大数据云平台平台部署1.Hadoop平台2.HDFS3.Hbase数据库4.Hive5.MapReduceHbase表结构设计1.Hbase简介2.Hbase设计存储与查询接口设计1.存储接口设计2.查询接口设计后台数据仓库设计数据仓库设计涉及范围 Linux系统环境搭建 Hadoop + Spark + Hbase 平台部署 Hbase表结构设计数据存储及查询接口的设计与实现基于Hbas...

Linux搭建Hive On Spark环境(spark-1.6.3-without-hive+hadoop2.8.0+hive2.1.1)

pucao_cug的专栏

05-26

1万+

不需要自己手动编译Spark源码，在Linux(CentOS7或者Ubuntu)上搭建Hive On Spark环境版本号是spark-1.6.3-without-hive hadoop2.8.0 hive2.1.1

java spark读写hdfs,在Spark / Scala中写入HDFS

weixin_26878995的博客

02-13

554

I am writing a spark/scala program to read in ZIP files, unzip them and write the contents to a set of new files. I can get this to work for writing to the local file system but wondered if there was ...

Spark 读取HDFS存入 HBase（1.0.0 新 API）

liyongke89的专栏

07-22

2724

原文地址：http://www.th7.cn/db/nosql/201602/177530.shtml Spark 读取HDFS存入 HBase（1.0.0 新 API） HBase经过七年发展，终于在今年2月底，发布了 1.0.0 版本。这个版本提供了一些让人激动的功能，并且，在不牺牲稳定性的前提下，引入了新的API。虽然 1.0.0 兼容旧版本的 API，不过还是应该尽早地

【Spark】Spark读取本地与hdfs文件