Hadoop以某目录下的所有目录作为input源方式

最新推荐文章于 2025-05-08 02:58:59 发布

最新推荐文章于 2025-05-08 02:58:59 发布 · 549 阅读

文章标签：

#大数据 #shell #操作系统

MapReduce 专栏收录该内容

54 篇文章

订阅专栏

本文介绍了如何利用Hadoop在特定目录下生成带有时间命名的日志文件，并将其作为分析的数据源。通过构建Path数组，遍历目录下的所有目录作为输入路径，从而实现高效的数据处理流程。

需求：

hadoop执行mr的时候以时间为名称在某固定目录下生成数据文件，比如日志，那么在对此做分析的时候需要把此目录下的所有目录作为input数据源来操作。

实现：

构建Path[]来作为数据源核心代码：

Path inPath = new Path("/hadoop/bizlog/");
FileStatus[] status = hdfs.listStatus(inPath);
List<Path> list = new ArrayList<Path>();
for (FileStatus fileStatus : status) {
	if (hdfs.getFileStatus(fileStatus.getPath()).isDir()) {
		list.add(fileStatus.getPath());
	}
}
Path[] paths = new Path[list.size()];
list.toArray(paths);
TextInputFormat.setInputPaths(job, paths);