Spark学习(文件读取路径）

最新推荐文章于 2024-04-29 11:12:25 发布

转载最新推荐文章于 2024-04-29 11:12:25 发布 · 3.3k 阅读

·

0

·

spark 专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了在Spark的不同启动模式中如何正确地读取本地及HDFS上的文件。针对local、standalone、yarn-client及cluster模式，分别给出了有效的路径配置示例。

转载：http://blog.youkuaiyun.com/hawksoft/article/details/52739355

在不同的启动模式下，加载文件时的路径写法是不一样的，对于local模式下，默认就是读取本地文件，而在standlone或者yarn-client,或者cluster模式下，默认读的都是hdfs文件系统，这几种模式下很难读取本地文件（这是很显然的事情，但你可以通过指定节点的文件服务曲线救国）。

下面的代码在local模式下有效，在其它模式下无效：

var theP1 = sc.textFile("file:///usr/test/people.json") //读取本地
var theP2 = sc.textFile("hdfs://master.hadoop/user/root/test/test/people.json") //读取hdfs文件

下面的代码在非local模式下，都是读取的hdfs,file://模式无效.

var theP1 = sc.textFile("/usr/test/people.json")
var theP2 = sc.textFile("/user/root/test/test/people.json")

下面这个语句在几种模式下都有效

var theP2 = sc.textFile("hdfs://master.hadoop/user/root/test/test/people.json") //读取hdfs文件

在非local模式下等同于

var theP2 = sc.textFile("/user/root/test/test/people.json")

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。