sc.textFiles() 与 sc.wholeTextFiles() 的区别及使用

最新推荐文章于 2023-10-16 21:17:49 发布

lirika_777

最新推荐文章于 2023-10-16 21:17:49 发布

阅读量3.7k

点赞数 4

分类专栏： spark scala

本文链接：https://blog.youkuaiyun.com/lirika_777/article/details/90348072

版权

spark scala 专栏收录该内容

11 篇文章

订阅专栏

众所周知，sc.textFiles(path) 能将path 里的所有文件内容读出，以文件中的每一行作为一条记录的方式：

>>> textFile = sc.textFile(path)
>>> textFile.collect()
'Hello world!'

文件的每一行相当于列表的一个元素，因此可以在每个partition中用for i in data的形式遍历处理数据。

如果需要将大量文件按照目录分类的方式存储在HDFS上，这时从HDFS上读取文件就需要使用sparkcontext.wholeTextFiles()；而使用 sc.wholeTextFiles()时，参见官网：

Read a directory of text files from HDFS, a local file system
(available on all nodes), or any  Hadoop-supported file system
URI. Each file is read as a single record and returned in a
key-value pair, where the key is the path of each file, the
value is the content of each file.
...

>>> textFiles = sc.wholeTextFiles(dirPath)
>>> sorted(textFiles.collect())
[(u'.../1.txt', u'1'), (u'.../2.txt', u'2')]

如上面所示，返回的是[(key, val), (key, val)...]的形式，其中key是文件路径，val是文件内容，这里我们要注意的重点是：'''Each file is read as a single record''' 这句话，每个文件作为一个记录！这说明这里的 val 将不再是 list的方式为你将文件每行拆成一个 list的元素,而是将整个文本的内容以字符串的形式读进来，也就是说val ='...line1...\n...line2...\n'；这时需要你自己去拆分每行！而如果你还是用for i in val的形式来遍历 val那么i得到的将是每个字符。具体操作如下：

val tmp = sc.wholeTextFiles("src/main/resources/doc/")
          .map(_._2)
          .flatMap(_.split("\n"))

解释下，sc.wholeTextFiles("path")返回的是[(key, val), (key, val)...]的形式，其中key是文件路径，val是文件内容；因为我们需要的是内容部分，使用.map(_._2)取到内容，但是一个value是一个文件的全部内容且是string形式，需要手动分开，所以使用.flatMap(_.split("\n"))来进行手动换行，这样就可以了。

tip：1.wholeTextFiles对于大量的小文件效率比较高，大文件效果没有那么高

2.textFile可以用于读取大文件