cloudera下pyspark初次运行

最新推荐文章于 2024-02-26 17:35:12 发布

heiren93

最新推荐文章于 2024-02-26 17:35:12 发布

阅读量901

点赞数

CC 4.0 BY-SA版权

文章标签： spark cloudera

本文链接：https://blog.youkuaiyun.com/heiren93/article/details/79541618

本文介绍了在使用Spark的PYSPARK时遇到的两个典型问题：一是资源调度警告，解决办法是在Cloudera管理界面增加worker运行内存；二是文件读取错误，通过确保所有节点上都有所需文件来解决。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Spark在PYSPARK运行命令时，出现 WARNscheduler.TaskSchedulerImpl: Initial job has not accepted any resources; checkyour cluster UI to ensure that workers are registered and have sufficient resources的错误。其中提到了两个问题workers are registered以及sufficient resources。因为spark是采用cloudera自动安装，workers肯定是存在的所以存在的问题是内存不够，到cloudera管理界面spark配置页中增加worker的运行内存。

2.运行下列代码时，报错

WARN scheduler.TaskSetManager: Lost task 0.0 in stage 2.0 (TID 8, worker2, executor 2): java.io.FileNotFoundException: File file:/data/word.txt does not exist。检查后发现在master节点存在/data/word.txt该文件目录，但是spark还是找不到。在网上查找资料答案五花八门，最后在知乎的一个答案下边的评论找到了答案