Spark textFile

本文介绍了Apache Spark中用于读取不同格式文件的方法,包括本地文件和HDFS文件,并详细说明了如何使用textFile(), wholeTextFiles(), sequenceFile[K,V]()及hadoopRDD()等API将各种文件类型转换为RDD。

Spark 支持 text files ,SequenceFiles 和任何 hadoop inputFormat 格式,使用 textFile() 方法可以将本地文件或者HDFS文件转换成RDD。

  • 如果读取本地文件,各节点都要有该文件,或者使用网络共享文件
  • 支持整个文件目录的读取,如 textFile(“/my/directory”)
  • 压缩文件读取,如textFile(“/my/directory/*.gz”)
  • 通配符文件读取,如textFile(“/my/directory/*.txt”)
  • textFile() 有可选的第二个参数 slice ,默认情况下,为每个block创建一个分片,用户也可以通过slice指定更多的分片,但是不能使用少于block数的分片。

  1. 使用 wholeTextFiles() 读取目录里面的小文件,返回(文件名,内容)对
  2. 使用 sequenceFile[K,V]() 方法可以将SequenceFile 转化成RDD
  3. 使用hadoopRDD()方法可以将其他任何Hadoop的输入类型转化成RDD
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值