spark读取外部配置文件之--files

最新推荐文章于 2024-07-11 10:38:26 发布

原创最新推荐文章于 2024-07-11 10:38:26 发布 · 1.6w 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#spark #--file #参数配置

Spark 专栏收录该内容

17 篇文章

订阅专栏

本文介绍了一种在Spark程序中读取外部配置文件的方法，包括配置文件的创建、上传及程序中的读取过程，并提供了具体的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在运行spark程序的时，有时需要读取外部配置参数，比如mysql的host参数、端口号、es主机ip、es端口号等。通过外部文件配置参数也方便程序迁移。下面就来看看如何来实现。

1、首先我们需要一个配置文件：
property.yml

es.nodes: 192.16.8.16

es.port: 9200

2、上传配置文件到某个节点：

3、然后需要在程序里加上如下代码：

Properties props = new Properties();
props.load(new FileInputStream("property.yml"));
String nodes = props.getProperty("es.nodes");
String port = props.getProperty("es.port");

4、通过 Maven打包程序：test.jar

5、上传 test.jar 到集群

6、执行 submit 命令

 spark-submit --master yarn-cluster --class com.
 Test 
 --files /home/lw/property.yml /home/lw/test.jar

--files 参数指定我们需要加载的外部配置文件

链接：spark读取外部配置文件

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

野老杂谈

关注关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

[Spark 进阶] -- Spark 如何在运行时读取 --files 添加的 README.md 文件？

欢迎来到我的博客，一起探索代码里的世界！

07-27

7460

Spark 如何在运行时读取 --files 添加的 README.md 文件？方法 1 本方法适用于 spark local 和 spark on yarn-client 。 --files 会把文件上传到 hdfs 的 .sparkStagin/applicationId 目录下，使用上面说的方法先获取到 hdfs 对应的这个目录，然后访问hdfs的这个文件，如下 spark....

Spark-submit提交任务如何读取外部配置文件

mjjyszazc的博客

01-05

3025

Spark-submit的--files参数

4 条评论您还未登录，请先登录后发表或查看评论

spark on yarn-cluster在生产环境部署 spark 任务，同时支持读取外部可配置化文件

u012447842的博客

09-29

1572

spark on yarn-cluster在生产环境部署读取外部可配置化文件

Spark读取--files文件

shengpli′s blog

08-19

2185

1.读取代码 Properties properties = new Properties(); properties.load(new FileInputStream("/etc/hive/conf/test.properties")); 2.–files配置 spark2-submit \ --class xxx \ --master yarn \ --deploy-mode c...

spark 带文件上集群，获取外部文件，--files 使用说明

Code_LT的博客

08-11

4152

当使用spark-submit --files时，会将–files后面的文件路径记录下来传给driver进程，然后当启动driver进程时，会调用SparkFiles.addFile(file_path)，并复制文件到driver的临时文件目录中。下面解释为什么FileInputStream和Source.fromFile直接写文件名也可以，因为scala io的相对路径取的事jvm的相对路径，而jvm的相对路径的根目录和driver和executor的工作路径是相同的。工作目录下该文件是存在的。

Spark提交参数--files的使用

南风知我意

06-21

1631

跨集群读写数据，我们测试了写hbase是可以从计算集群向存储集群写的，而且能写进去。但是一旦写hive 他就是写不存储集群的hive中，每次都只写到了计算集群的hive中。这让我很费解，而且我在本地IDEA上测试的时候，就能写到存储集群的hive中，一旦上小海豚放集群上跑他就写跑偏了，就给写到计算集群的hive里面了。原因分析： 1.我先去Spark的运行界面上查看了Environment下的hadoop的参数，我搜了nn1去看了一下，看看我的changenamenode方法到底有没有给我生效

Spark 读取外部配置文件（各种提交模式、使用 typesafe.config）

空藍性忘的博客

11-26

4523

Spark 读取外部配置文件（各种提交模式、使用 typesafe.config） 1.使用 typesafe.config 读取外部配置文件 使用 com.typesafe.config 的方式 STEP1.导入 typesafe 依赖 <dependency> <groupId>com.typesafe</groupId> <artifactId>config</artifactId> <version>R

【spark基础】之client模式下--conf读取外部文件

珉辰大数据

06-27

1030

本文以spark on yarn下的client为例进行说明

spark 读取ftp_Spark开发-SparkSQL读写数据

weixin_32321921的博客

02-22

939

SparkSQL数据读写DataFrameReaderDataFrameWriterDataFrameReader 对应的组件 SCHEMA OPTION FORMATDataFrameReader 有两种访问方式,一种是使用 load 方法加载, 使用 format 指定加载格式,还有一种是使用封装方法, 类似 csv, json, jdbc 等//.第一种形式 READ + FORMAT...

spark-submit --files 动态加载外部资源文件

热门推荐

u010990043的博客

09-20

1万+

在做spark时，有些时候需要加载资源文件，需要在driver或者worker端访问。在client模式下可以使用IO流直接读取,但是在cluster模式下却不能直接读取，需要如下代码： val is: InputStream = this.getClass.getResourceAsStream(“./xxx.sql”) val bufferSource = Source.fromInput...

【spark】on yarn的模式下，如何上传files并在程序中读取到？

lsr40的博客

06-24

4495

在使用spark的时候，往往我们需要外部传入文件，来配合程序做数据处理那么这就涉及到，如何传入，如何获取（本文讨论的是spark on yarn）？讲实话，我觉得这个问题挺烦的，我百度了好久（可能我姿势不对？），各种博客，stackoverflow，community.cloudera.com都找过，我觉得回答方都停留在理论基础，并没有show me code，我实际测试的时候，好像又和他们说的不太一样，哎，要是能有统一的入口，统一的出口就好了 1、client模式 client模式下.

spark-submit提交jar包读取外部配置文件遇到的问题

qq_16220645的博客

05-01

2545

./bin/spark-submit \ --class com.test.examples.SparkStreaming \ --master yarn \ --deploy-mode client \ --driver-memory 4g \ --executor-memory 4g \ --executor-cores 3 \ --queue q2 \ /pa...

spark读取外部配置文件的方法

weixin_30588827的博客

10-18

1408

spark读取外部配置文件的方法 spark-submit --files /tmp/fileName /tmp/test.jar 使用spark提交时使用--files参数,spark会将将本地的文件上传的hdfs,然后分发给每个executor 在程序中只需要使用文件名获取数据 val filePath ="fileName" val props...

Spark --files使用总结

呆呆的嘛的博客

10-26

1871

spark --files

spark-4 Spark Streaming

xfysq_的博客

03-23

835

Spark Streaming

Spark：一文带你掌握Spark基础命令

Liu_y_xin的博客

07-11

941

启动spark创建rdd系统将原文件中的内容以行为单位作为rdd中的元素，类型均为字符串类型。

通过 spark.files 传入spark任务依赖的文件源码分析

diaoxie5099的博客

09-21

603

Spark读取外部数据的几种方式

Messi的小迷弟

08-21

3344

一、spark读取csv文件（四种方式） //方式一：直接使用csv方法 val sales4: DataFrame = spark.read.option("header", "true").option("header", false).csv("file:///D:\\Software\\idea_space\\spark_streaming\\src\\data\\exam\\sales.csv") .withColumnRenamed("_c0", "time") .withC

Spark --files理解

qq_41775852的博客

03-10

9233

Spark --files作用使用方法添加文件获取文件原理注意事项作用加载外部资源文件，在driver和executor进程中进行访问。使用方法添加文件 spark-submit --files file_paths 其中file_paths可为多种方式：file:,hdfs://,http://,ftp://,local:,多个路径用逗号隔开获取文件获取文件路径： filePath...

头歌实践教学平台答案SparkStreaming--Java

最新发布

03-20

### 关于头歌实践教学平台中 Spark Streaming 和 Java 的相关内容 #### 头歌实践教学平台简介头歌实践教学平台是一个专注于计算机科学教育的在线学习平台，提供多种技术方向的学习资源和实验环境。对于 Spark Streaming 和 Java 的结合使用，该平台通常会通过实际案例帮助学生理解如何利用 Java 编写 Spark Streaming 应用程序。 --- #### Spark Streaming 基本概念 Spark Streaming 是 Apache Spark 中用于处理实时数据流的一个模块。它能够接收来自不同源的数据（如 Kafka[^3]），并将这些数据划分为小批量进行分布式计算。以下是 Spark Streaming 使用 Java 进行开发的一些核心要点： 1. **创建 SparkStreamingContext** 需要初始化 `JavaStreamingContext` 对象来设置批处理时间间隔。 2. **输入数据源配置** 可以从各种数据源读取数据，例如 Kafka 或其他消息队列系统。 3. **DStream 操作** DStream 是 Spark Streaming 提供的核心抽象，表示连续不断的数据流。可以通过转换操作（如 map、filter）对其进行处理。 4. **输出结果** 将处理后的结果保存到外部存储或发送至下游系统。 --- #### 示例代码：基于 Java 的 Spark Streaming 程序以下是一段简单的 Java 代码示例，展示如何使用 Spark Streaming 接收 Kafka 数据并进行基本统计分析。 ```java import org.apache.spark.SparkConf; import org.apache.spark.streaming.Durations; import org.apache.spark.streaming.api.java.JavaPairInputDStream; import org.apache.spark.streaming.api.java.JavaStreamingContext; import org.apache.kafka.clients.consumer.ConsumerRecord; import org.apache.spark.streaming.kafka010.KafkaUtils; import java.util.Arrays; import java.util.Collection; import java.util.HashMap; import java.util.Map; public class SparkStreamingExample { public static void main(String[] args) throws InterruptedException { // 初始化 Spark 配置 SparkConf conf = new SparkConf() .setAppName("JavaSparkKafkaWordCount") .setMaster("local[*]"); // 创建 Streaming Context 并设置批次时间为 2 秒 JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(2)); // 定义 Kafka 参数 Map<String, Object> kafkaParams = new HashMap<>(); kafkaParams.put("bootstrap.servers", "localhost:9092"); kafkaParams.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); kafkaParams.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); kafkaParams.put("group.id", "use_a_separate_group_id_for_each_stream"); kafkaParams.put("auto.offset.reset", "latest"); kafkaParams.put("enable.auto.commit", false); Collection<String> topics = Arrays.asList("test"); // 创建 Kafka 输入流 JavaPairInputDStream<String, String> messages = KafkaUtils.createDirectStream( jssc, LocationStrategies.PreferConsistent(), ConsumerStrategies.<String, String>Subscribe(topics, kafkaParams) ); // 统计单词数量 messages.mapToPair(record -> new Tuple2<>(record.value(), 1)) .reduceByKey((v1, v2) -> v1 + v2) .print(); // 启动 Streaming 上下文 jssc.start(); jssc.awaitTermination(); } } ``` 上述代码展示了如何连接 Kafka 主题，并对每条记录的内容按单词频率进行统计。 --- #### JSON 文件处理与 Spark SQL 结合如果需要进一步扩展功能，比如加载 JSON 格式的日志文件并与 Spark SQL 联合使用，则可以参考如下方式[^4]： ```java // 加载 JSON 数据作为 DataFrame Dataset<Row> jsonDF = spark.read().json("/path/to/json/files/*.json"); // 注册临时表以便查询 jsonDF.createOrReplaceTempView("logs"); // 执行 SQL 查询 Dataset<Row> results = spark.sql("SELECT * FROM logs WHERE timestamp > '2023-01-01'"); results.show(); ``` 此部分适用于场景化需求，例如广告点击率分析或影评情感挖掘等项目[^5]。 --- #### 学习建议为了更高效地掌握 Spark Streaming 和 Java 开发技能，推荐以下途径： - 利用在线学习平台上的免费课程，例如 Coursera 和 Udemy 提供的相关专题[^2]。 - 在头歌平台上完成配套练习任务，逐步熟悉 API 的调用逻辑。 - 查阅官方文档获取最新版本的功能说明和支持材料。 ---