Hadoop的PathFilter使用

本文介绍了Hadoop中PathFilter接口的实现方法,通过自定义TextPathFilter类来过滤输入路径,只处理特定目录下的文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop的PathFilter使用

源码接口定义:

public interface PathFilter {
  /**
   * Tests whether or not the specified abstract pathname should be
   * included in a pathname list.
   *
   * @param  path  The abstract pathname to be tested
   * @return  <code>true</code> if and only if <code>pathname</code>
   *          should be included
   */
  boolean accept(Path path);
}


用法:

static class TextPathFilter extends Configured implements PathFilter {
		@Override
		public boolean accept(Path path) {		
			FileSystem fs;
			try {				
				fs = FileSystem.get(getConf());
				FileStatus fstatus = fs.getFileStatus(path);
				List<String> lstName = new ArrayList<String>();
				lstName.add("input1");
				lstName.add("input2");
				lstName.add("input3");
				lstName.add("input4");							
				if(fstatus.isDirectory()) {   //是目录的话返回true
					return true;
				}
				if(fstatus.isFile() && lstName.contains(fstatus.getPath().getParent().getName())) {  //是文件的话且满足过滤条件返回true
					return true;										
				}
			} catch (IOException e) {
				e.printStackTrace();
			}
			
			return false;
		}
		
	}


Driver类写的:

FileInputFormat.addInputPath(job, new Path(otherArgs[0]));	  //输入路径
FileInputFormat.setInputDirRecursive(job, true);// 递归输入
FileInputFormat.setInputPathFilter(job, TextPathFilter.class);   //指定pathfilter类


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值