Spark 支持 text files ,SequenceFiles 和任何 hadoop inputFormat 格式,使用 textFile() 方法可以将本地文件或者HDFS文件转换成RDD。
- 如果读取本地文件,各节点都要有该文件,或者使用网络共享文件
- 支持整个文件目录的读取,如 textFile(“/my/directory”)
- 压缩文件读取,如textFile(“/my/directory/*.gz”)
- 通配符文件读取,如textFile(“/my/directory/*.txt”)
- textFile() 有可选的第二个参数 slice ,默认情况下,为每个block创建一个分片,用户也可以通过slice指定更多的分片,但是不能使用少于block数的分片。
- 使用 wholeTextFiles() 读取目录里面的小文件,返回(文件名,内容)对
- 使用 sequenceFile[K,V]() 方法可以将SequenceFile 转化成RDD
- 使用hadoopRDD()方法可以将其他任何Hadoop的输入类型转化成RDD