用分布式缓存文件存储数据到本地 DistributedCache

本文介绍如何在Hadoop中使用分布式缓存功能加载数据,并在MapReduce任务中通过Mapper类读取这些数据。具体展示了如何在main函数中设置缓存文件及其别名,并在Mapper的setup方法中读取缓存文件的内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

main函数里:

Configuration conf = new Configuration();
Job job = new Job(conf, "kmeans job");
URI centersFile = new URI(
"hdfs://Master1Hadoop/user/image/centers/centersfile#cf"); // 设定要读入文件的信息                                                                                    //centersfile为要分布式缓存的数据,#cf是为它起个别名
job.addCacheFile(centersFile); // 加入Cache,新API


Class xxx extends Mapper里:

public void setup(Context context) throws IOException, InterruptedException {
URI[] caches = context.getCacheFiles();
if (caches == null || caches.length <= 0) {
System.out.println("centers file does not exist");
System.exit(1);
}

BufferedReader br = new BufferedReader(new FileReader("./cf")); // 读取文件,这里的cf正是main里起得别名

String line;

while ((line = br.readLine()) != null) { // 每次读一行
System.out.println(line);
}

               br.close;

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值