hadoop自定义输出文件名

本文介绍如何在Hadoop中自定义输出文件名,通过继承并覆盖MultipleTextOutputFormat的方法,实现了每个Reduce任务生成独立且按序编号的文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  hadoop的默认文件输出格式是“TextOutputFormat”输出的文件名是“part-r-00000”这种类型,能不能实现自定义的文件名呢?我试了一下可以,下面是代码

  private static class MyMutipleTextOutputFormat extends MultipleTextOutputFormat<Text, IntWritable> {

                private static AtomicInteger atomicInteger = new AtomicInteger(1);

/**
* 实现一个REDUCE一个文件,且文件名自定义。
*/
@Override
protected String generateLeafFileName(String name) {
// 使用 AtomicInteger 和 “i++”是不行的,因为这个是跨虚拟机的
// int prefix = atomicInteger.incrementAndGet();
// return prefix  + ".txt";
// UUID uuid = UUID.randomUUID();
// return uuid.toString() + ".txt";
// 由于name "part-r-00000"所以从第七个字符开始取,然后转成INT
int _name = Integer.parseInt(name.substring(7));
return _name + ".txt";
}
}

jobconf.setOutputFormat(MyMutipleTextOutputFormat.class);

        本想用一个AtomicInteger 来实现生成“1.txt, 2.txt 3.txt”的文件,但是mapreduce框架运行的时候是跨虚拟机的,导致不能实现。实在没办法就用“generateLeafFileName”方法的参数“name”做文章,“name”的值是“part-r-00000”这种值,(框架内实现了文件名累加)就拿它解析然后拼凑文件名。虽然实现的不是很完美,但是还是实现了功能。

       此外这个当使用hadoop-0.20.2编写代码的时候不能用新的API,因为job.setOutputFormatClass();会报错,网上查了下好像说是0.20.2里面的一个BUG。所以用就API来编写代码。

       下面是我运行的结果

-rw-r--r--   3 analyzer supergroup       1174 2012-09-23 22:14 /user/analyzer/output/2011-01-01/20120923221419/0.txt
-rw-r--r--   3 analyzer supergroup       1014 2012-09-23 22:14 /user/analyzer/output/2011-01-01/20120923221419/1.txt
-rw-r--r--   3 analyzer supergroup       1312 2012-09-23 22:14 /user/analyzer/output/2011-01-01/20120923221419/2.txt
-rw-r--r--   3 analyzer supergroup       1035 2012-09-23 22:14 /user/analyzer/output/2011-01-01/20120923221419/3.txt
-rw-r--r--   3 analyzer supergroup       1261 2012-09-23 22:14 /user/analyzer/output/2011-01-01/20120923221419/4.txt
-rw-r--r--   3 analyzer supergroup       1159 2012-09-23 22:14 /user/analyzer/output/2011-01-01/20120923221419/5.txt
-rw-r--r--   3 analyzer supergroup       1424 2012-09-23 22:14 /user/analyzer/output/2011-01-01/20120923221419/6.txt
-rw-r--r--   3 analyzer supergroup       1321 2012-09-23 22:14 /user/analyzer/output/2011-01-01/20120923221419/7.txt
-rw-r--r--   3 analyzer supergroup       1238 2012-09-23 22:14 /user/analyzer/output/2011-01-01/20120923221419/8.txt
-rw-r--r--   3 analyzer supergroup       1282 2012-09-23 22:14 /user/analyzer/output/2011-01-01/20120923221419/9.txt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sinoyang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值