使用JAVA写词频统计时,HDFS上文件input的路径正确,依然报找不到文件路径的错误。
错误原因:没有把conf信息注入连接
Configuration conf = new Configuration();
conf.set(“fs.defaultFS”,“hdfs://hadoop10:8020”);
Job job = Job.getInstance();
解决方法:
Job job = Job.getInstance(conf);
修正后主方法中的内容:
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
//1.MapReduce处理的数据在HDFS上,所以要先连接HDFS
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://hadoop10:8020");
//2.构建一个job,并告知job要启动什么代码(Mapper,Reducer)
Job job = Job.getInstance(conf);
job.setJarByClass(WordCount.class);//job此时可以找到WordCount这个类去运行
//3.读取数据的方式,设定文件读取的类和输出的类
//输入的类和输出的类都是Text文件类型的
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
//4.提供要读取的文件和要输出的文件夹
/*FileSystem fs = FileSystem.get(conf);
if (fs.exists(new Path("/demo1.txt"))) {
System.out.println("文件存在");
}else{
System.out.println("文件不存在");
}*/
TextInputFormat.addInputPath(job,new Path("/demo1.txt"));
TextOutputFormat.setOutputPath(job,new Path("/from_java_demo1_out2"));//指定的文件夹不能存在
//5.设置Mapper和Reducer 的类
job.setMapperClass(WordCountMapper.class);
job.setReducerClass(WordCountReducer.class);
//6.设置map和Reduce输入和输出的类型
//因为Mapper中KEYIN和VALUEIN是固定的,所以不需要设置,只需要设置KEYOUT与VALUEOUT类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
//因为Reduce中KEYIN和VALUEIN与Mapper KEYOUT与VALUEOUT类型是一样的,所以只需要设置Reduce中KEYOUT与VALUEOUT
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
//7.启动job,参数代表看日志的
boolean flag = job.waitForCompletion(true);
if (flag) {
System.out.println("运行成功");
}
else {
System.out.println("运行失败");
}
}
报错信息界面: