SparkR遇到的问题之找不到路径

最新推荐文章于 2023-09-07 19:09:41 发布

原创最新推荐文章于 2023-09-07 19:09:41 发布 · 1.8k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#问题

SparkR问题专栏收录该内容

1 篇文章

订阅专栏

本文解决在SparkR中运行单词计数时遇到的问题，特别是因文件路径配置不正确导致的错误。介绍了如何正确设置HDFS路径及本地文件系统的路径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一次在sparkR运行单词计数，遇到到下面问题。

16/08/09 11:42:07 ERROR RBackendHandler: collect on 40 failed
Error in invokeJava(isStatic = FALSE, objId$id, methodName, ...) : 
  org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://nameservice1/user/root/user/yjl/aa.txt
        at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:285)
        at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:228)
        at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:313)
        at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:207)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)
	        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)
        at scala.Option.getOrElse(Option.scala:120)
        at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
        at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)
	        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)
        at scala.Option.getOrElse(Option.scala:120)
        at org.apache.spark.rdd

程序默认是在hdfs的root路径下找文件的，这里是因为，没有指定好路径，所以文件找不到，正确的是：
lines <- SparkR:::textFile(sc,"/user/yjl/aa.txt")用"file///home/aa.txt"在集群本地找也是找不到的。