RDD分区2GB限制

最新推荐文章于 2024-10-02 12:15:57 发布

AlferWei

最新推荐文章于 2024-10-02 12:15:57 发布

阅读量948

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark

本文链接：https://blog.youkuaiyun.com/OiteBody/article/details/80164742

Spark 专栏收录该内容

32 篇文章

订阅专栏

spark处理较大的数据时，遇到了分区2G限制的问题。

问题来源：

500G原数据存储在HBase上，Spark从HBase读取数据这些数据进行处理，任务资源分配如下：

--executor-memory 12G \
--executor-cores 6 \
--conf spark.yarn.driver.memoryOverhead=2048 \
--conf spark.yarn.executor.memoryOverhead=4096 \
--conf spark.shuffle.service.enabled=true \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.dynamicAllocation.executorIdleTimeout=60s \
--conf spark.dynamicAllocation.initialExecutors=2 \
--conf spark.dynamicAllocation.maxExecutors=10 \
--conf spark.dynamicAllocation.minExecutors=0 \
--conf spark.memory.userLegacyMode=false \
--conf spark.memory.fraction=0.75 \
--conf spark.memory.storageFraction=0.5

Spark抛出的日志片段：

Caused by:java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE
         atsun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:828)
         atorg.apache.spark.storage.DiskStore$$anonfun$getBytes$2.apply(DiskStore.scala:127)
         atorg.apache.spark.storage.DiskStore$$anonfun$getBytes$2.apply(DiskStore.scala:115)
         atorg.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1240)
         atorg.apache.spark.storage.DiskStore.getBytes(DiskStore.scala:129)
         atorg.apache.spark.storage.DiskStore.getBytes(DiskStore.scala:136)
         atorg.apache.spark.storage.BlockManager.doGetLocal(BlockManager.scala:515)
         atorg.apache.spark.storage.BlockManager.getLocal(BlockManager.scala:430)
         atorg.apache.spark.storage.BlockManager.get(BlockManager.scala:669)
         atorg.apache.spark.CacheManager.getOrCompute(CacheManager.scala:44)
         atorg.apache.spark.rdd.RDD.iterator(RDD.scala:268)
         atorg.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
         atorg.apache.spark.scheduler.Task.run(Task.scala:89)
         atorg.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:242)
         atjava.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
         atjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
         atjava.lang.Thread.run(Thread.java:745)

Spark任务遇到上面的异常后就立即退出了。