怎么上传文件到spark服务器上,从SFTP服务器加载文件到spark RDD

您可以以下方式使用spark-sftp库在你的程序:

火花2.x的

Maven的依赖

com.springml

spark-sftp_2.11

1.1.0

SBT依赖

libraryDependencies += "com.springml" % "spark-sftp_2.11" % "1.1.0"

与火花壳

此包可添加使用--packages命令行选项来使用火花。

$ bin/spark-shell --packages com.springml:spark-sftp_2.11:1.1.0

Scala的API

// Construct Spark dataframe using file in FTP server

val df = spark.read.

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

option("inferSchema", "true").

load("/ftp/files/sample.csv")

// Write dataframe as CSV file to FTP server

df.write.

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

save("/ftp/files/sample.csv")

用于火花的1.x(1.5+)

Maven的依赖:例如,要在启动火花壳时它包括

com.springml

spark-sftp_2.10

1.0.2

SBT依赖

libraryDependencies += "com.springml" % "spark-sftp_2.10" % "1.0.2"

与火花壳

此包可添加使用--packages命令行选项来使用火花。例如,在启动火花外壳时,它包含:

$ bin/spark-shell --packages com.springml:spark-sftp_2.10:1.0.2

斯卡拉API

import org.apache.spark.sql.SQLContext

// Construct Spark dataframe using file in FTP server

val sqlContext = new SQLContext(sc)

val df = sqlContext.read.

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

option("inferSchema", "true").

load("/ftp/files/sample.csv")

// Write dataframe as CSV file to FTP server

df.write().

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

save("/ftp/files/sample.csv")

欲了解更多有关spark-sftp你可以参观那里的github页springml/spark-sftp

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值