在确认文件存在的情况下,出现这个问题的原因是:在集群中运行的pyspark。例如使用命令bin/pyspark --master yarn启动pyspark
解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。
解决方式2:直接将数据文件上传到hdfs,达到数据共享。
本文探讨了在Pyspark集群环境下遇到的文件读取问题,并提供了两种解决方案:一是确保每个Worker节点上都有所需数据文件;二是将数据文件上传至HDFS实现共享。这对于理解并解决Pyspark在分布式环境中的数据访问问题是十分关键的。
在确认文件存在的情况下,出现这个问题的原因是:在集群中运行的pyspark。例如使用命令bin/pyspark --master yarn启动pyspark
解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。
解决方式2:直接将数据文件上传到hdfs,达到数据共享。
3792
2750
3683
8063
1万+

被折叠的 条评论
为什么被折叠?