关于Spark 集群中调度GPU的一些实验

最新推荐文章于 2025-05-28 13:31:30 发布

Kaiattrib

最新推荐文章于 2025-05-28 13:31:30 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： Docker Linux 文章标签： Spark docker gpu

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_33728573/article/details/94006165

Docker 同时被 2 个专栏收录

1 篇文章

订阅专栏

1 篇文章

订阅专栏

本文分享了作者在Spark集群中调度GPU进行加速计算的实验过程。由于Spark本身不直接支持GPU，作者通过JNI方式调用GPU，并利用Docker实现GPU资源的虚拟化与量化。结合K8S平台，实现了GPU资源的细粒度管理和Spark集群的快速扩展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于Spark 集群中调度GPU的一些实验

自己毕设做了一些Spark 调用GPU 相关的实验，自己也在网上找到了一些资料，也写下来分享一些自己的做法。

目前Spark(2.3) 还不支持直接调用GPU , 需要自己通过JNI的方式实现调用GPU来做一些加速计算。通常是自己定义好接口，在用NVCC生成动态链接库，然后在Spark中调用。

自己做的一些尝试

1.通过Docker 做到 GPU 容器化，虚拟化。若GPU支持MPS，建议开启MPS。一个容器成为一个Spark计算节点。

2.为了更好的扩展和调度，采用上面的镜像。在K8S中建立Spark集群，可以通过副本集快速扩容。

3.可以预估单个计算任务，需要的资源，合理的指定每个GPU node 部署的单个SparkGPU容器的数量。若需要更细粒度的管理每个容器分配的GPU资源，可以查看阿里云开源的一个K8S插件，支持MB级别的分配（https://github.com/nvidia/k8s-device-plugin）

4.总结起来就是，我做的是把每张不同的GPU卡，通过Docker虚拟化做到细粒度的量化，因为每张卡的计算能力不同，这样可以通过K8S，快速给不同的节点部署不同个数的容器实例，在容器实例中启动Spark，再对saprk层面做公平的计算分配。

博客等级

码龄10年

34
原创

43
点赞

111
收藏

9
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 基于Ubuntu16.04 的globalmem驱动测试

最新评论

实测-用vmware把系统装到U盘
文晰安意: 你买的是不是扩容盘？
实测-用vmware把系统装到U盘
月亮姐姐哗: 权限不足咋解决啊
基于Ubuntu16.04 的globalmem驱动测试
Just_a_Way_Plus: 用了测试文件，好用~
实测-用vmware把系统装到U盘
Zaininn: 为什么安装系统的时候显示磁盘只有几十kb空闲，u盘明明还有八十多GB可用
JAVA 多线程 this.getName()与Thread.currentThread().getName()
hansonzhe 回复 hansonzhe: [code=java] public static void main(String a[]) throws InterruptedException { Student S0 = new CurrentThreadTest(). new Student("Jack"); Thread T0 = new Thread(S0); System.out.println("S0.getName " + S0.getName()); System.out.println("T0.getName " + T0.getName()); Thread.sleep(1000); // currentThread() 是 T0，this.getName() 是 S0 System.out.println("T0.start();"); T0.start(); Thread.sleep(1000); // currentThread() 是 S0，this.getName() 是 S0 System.out.println("S0.start();"); S0.start(); Thread.sleep(1000); // 不会执行 System.out.println("T0.run();"); T0.run(); Thread.sleep(1000); // currentThread() 是 main，this.getName() 是 S0 System.out.println("S0.run();"); S0.run(); Thread.sleep(1000); } } [/code] 执行这段代码，会很清晰看出 Thread.currentThread().getName() 和 this.getName() 的区别。

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。