用分布式缓存文件存储数据到本地 DistributedCache

最新推荐文章于 2025-02-27 09:19:44 发布

原创最新推荐文章于 2025-02-27 09:19:44 发布 · 639 阅读

0 ·

CC 4.0 BY-SA版权

Hadoop 专栏收录该内容

3 篇文章

订阅专栏

本文介绍如何在Hadoop中使用分布式缓存功能加载数据，并在MapReduce任务中通过Mapper类读取这些数据。具体展示了如何在main函数中设置缓存文件及其别名，并在Mapper的setup方法中读取缓存文件的内容。

main函数里：

Configuration conf = new Configuration();
Job job = new Job(conf, "kmeans job");
URI centersFile = new URI(
"hdfs://Master1Hadoop/user/image/centers/centersfile#cf"); // 设定要读入文件的信息 //centersfile为要分布式缓存的数据，#cf是为它起个别名
job.addCacheFile(centersFile); // 加入Cache，新API

Class xxx extends Mapper里：

public void setup(Context context) throws IOException, InterruptedException {
URI[] caches = context.getCacheFiles();
if (caches == null || caches.length <= 0) {
System.out.println("centers file does not exist");
System.exit(1);
}

BufferedReader br = new BufferedReader(new FileReader("./cf")); // 读取文件,这里的cf正是main里起得别名