1、textfile的分区数量跟文件的个数相关:分区数量=小文件的个数,而wholeTextFile的分区数量是默认的两个分区
2、textfile读取文件是将文件里的数据按行读取,文件的每一行 相当于List列表中以 “,”号 隔开的一个元素,因此可以在每个partition中用for i in data的形式遍历处理Array里的数据;
而wholeTextFile读取文件则是读取[文件路径,文件内容]的形式,返回的是[(K1, V1), (K2, V2)...]的形式,其中K是文件路径,V是文件内容。
TextFile读取文件:直接读取数据内容

wholeTextFile读取文件:读取内容以[路径,文件内容]形式返回
whoelTextFile读取小文件、查看分区、获取文件内容[使用map(lambda),因为返回的是list中带有元组的]

文章讨论了textfile的分区策略,与文件个数有关,而wholeTextFile默认分区为两个。textfile按行读取像List,适合for循环处理;wholeTextFile读取返回路径和内容元组,适用于map操作,特别在处理小文件时需要注意查看分区并获取内容。
2931

被折叠的 条评论
为什么被折叠?



