spark使用独立的Python环境提交任务

最新推荐文章于 2025-06-24 16:30:27 发布

原创

最新推荐文章于 2025-06-24 16:30:27 发布 · 5.9k 阅读

CC 4.0 BY-SA版权

文章标签：

由于需要在公司的大数据平台上使用自己的Python环境，折腾了很久，特此记录

先说几个坑：

需要注意版本，不同的spark版本会有些不同，当前我的spark版本是2.2.1，如果以下的方式不生效，记得先看看版本；
由于公司平台的环境是离线的，pip down下载的包是需要和硬件架构匹配的，我在mac上pip down的包拿到Linux下是无法正常安装的，建议看一下这篇文章的介绍：https://imshuai.com/python-pip-install-package-offline-tensorflow，里面详细介绍了如果进行离线python环境的移植
指定环境和路径是分开的，即使指定了环境，包内部也可能存在依赖丢失的问题

这个不多介绍了，不管是通过annaconda还是virtualenv，创建好你自己的python环境。如果你也碰到了离线的平台，建议查看上面的坑2：自己用docker做一个和服务器一样的系统版本，在上面完成虚拟的环境的创建，再将其拷贝出来；

创建好环境后，进入到环境所在的文件夹，例如你的环境是 ***/**

12 条评论

yjw_Jone 2020.11.20
Cannot run program "./***/bin/python3": error=2, No such file or directory请问找不到路径是什么原因啊
- qq_40634661回复wang_306 2023.04.20
  请问这个压缩包上传到hdfs上还需要在hdfs路径下将zip包手动解压吗？
- 小小小小亮回复wang_306 2022.09.08
  请问是在hdfs解压还是在本地解压啊
- wang_306回复yjw_Jone 2022.01.29
  环境的zip文件需要在当前文件下解压一份的，这个你解压了吗
- SimonHay回复wzhbtbu 2022.01.07
  大佬这个问题的坑你趟过去了吗
- wzhbtbu回复yjw_Jone 2021.07.09
  请问你解决了吗

rosefunR 2020.06.23
spark-submit cluster, 用virtualenv创建的Python，提示，no module named encodings. 该如何解决呢？
- qq_40200995回复rosefunR 2021.05.24
  请问你的问题解决了吗
- rosefunR回复wang_306 2020.06.23
  [reply]wang_306[/reply]好的，谢谢
- wang_306回复rosefunR 2020.06.23
  [reply]rosefun96[/reply]我最终是使用conda 创建的，使用virtualenv也没有创建成功，你先使用conda试试