spark读取hdfs中文件的时候,.tmp文件不是我们需要的,需要进行过滤
import org.apache.hadoop.fs.{Path, PathFilter}
/**
* filter temp files in hdfs dirs
* eg: 1234556.tmp
*/
class FilterTmpPath extends PathFilter {
@Override
def accept(path:Path):Boolean = {
val tmpStr = path.getName()
if(tmpStr.endsWith(".tmp")) {
return false
}
return true
}
}
本文介绍了一种在Spark中读取HDFS文件时过滤掉不需要的.tmp暂存文件的方法,通过自定义PathFilter实现精确控制,确保数据处理流程的高效与准确。
1695

被折叠的 条评论
为什么被折叠?



