spark本地运行的错误 java.net.URISyntaxException: Relative path in absolute URI:

最新推荐文章于 2023-06-20 14:35:38 发布

原创最新推荐文章于 2023-06-20 14:35:38 发布 · 置顶 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

大数据专栏收录该内容

8 篇文章

订阅专栏

本文记录了一次使用Apache Spark处理数据时遇到的任务失败问题及其解决过程。主要错误为相对路径出现在绝对URI中，导致任务反复失败。通过调整配置，正确设置输入文件路径解决了此问题。

20/12/03 20:24:03 INFO DAGScheduler: ShuffleMapStage 0 (map at WordCount.scala:24) failed in 2.446 s due to Job aborted due to stage failure: Task 1 in stage 0.0 failed 4 times, most recent failure: Lost task 1.3 in stage 0.0 (TID 5, 192.168.20.167, executor 1): java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: D:%5Ctmp%5Chadoop%5CHamlet.txt
   at org.apache.hadoop.fs.Path.initialize(Path.java:205)
   at org.apache.hadoop.fs.Path.<init>(Path.java:171)
   at org.apache.hadoop.util.StringUtils.stringToPath(StringUtils.java:245)
   at org.apache.hadoop.mapred.FileInputFormat.setInputPaths(FileInputFormat.java:411)
   at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$30.apply(SparkContext.scala:1038)
   at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$30.apply(SparkContext.scala:1038)
   at org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:171)
   at org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:171)
   at scala.Option.foreach(Option.scala:257)
   at org.apache.spark.rdd.HadoopRDD.getJobConf(HadoopRDD.scala:171)
   at org.apache.spark.rdd.HadoopRDD$$anon$1.<init>(HadoopRDD.scala:207)
   at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:203)
   at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:94)
   at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
   at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
   at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
   at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
   at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
   at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
   at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
   at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
   at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
   at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
   at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
   at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)
   at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)
   at org.apache.spark.scheduler.Task.run(Task.scala:108)
   at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:335)
   at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
   at java.lang.Thread.run(Thread.java:748)
Caused by: java.net.URISyntaxException: Relative path in absolute URI: D:%5Ctmp%5Chadoop%5CHamlet.txt
   at java.net.URI.checkPath(URI.java:1823)
   at java.net.URI.<init>(URI.java:745)
   at org.apache.hadoop.fs.Path.initialize(Path.java:202)
   ... 30 more

解决办法：

.setJars(List("D:\\code\\Test\\TestSpark\\out\\artifacts\\TestSpark_jar\\TestSpark.jar"))