22、Ray：机器学习的分布式计算利器

最新推荐文章于 2025-11-25 01:48:54 发布

neovim7hacker

最新推荐文章于 2025-11-25 01:48:54 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：解锁MLOps：Ray实战指南文章标签： Ray 分布式计算机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/neovim7hacker/article/details/152240159

解锁MLOps：Ray实战指南专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Ray：机器学习的分布式计算利器

1. Ray调度高级选项：Placement Groups

Ray调度中有一个高级选项——Placement Groups。它允许Ray用户以事务性的方式跨多个节点预留一组资源。在某些机器学习场景中，若没有一组最少的资源就无法推进任务（即“帮派调度”场景），这时Placement Groups就非常有用。

2. 容错机制

Ray是一个复杂的分布式系统，故障的发生是常态而非例外。通常有两种类型的故障：
- Ray级故障 ：Ray负责将Python函数和类扩展到多台计算机的集群中，因此扩展部分出现的任何错误都被视为Ray级故障。例如，若Node 1上的Raylet崩溃（如因意外原因被操作系统终止），这就是Ray级故障。
- 应用级故障 ：Ray尝试扩展的Python函数或类内部发生的任何错误都被视为应用级故障。例如，若file1对于Python函数count_lines来说太大，导致内存不足（OOM）错误，这就是应用级故障。

Ray针对不同类型的故障有不同的容错策略：
| 类型 | 容错策略 |
| ---- | ---- |
| 任务（Task） | 默认情况下，失败的Ray任务将重试3次。可以使用 @ray.remote (max_retries=x) 进行自定义。 |
| 参与者（Actor） | 默认情况下，失败的Ray参与者不会重新启动。可以使用 @ray.remote (max_retries=y) 进行自定义。 |

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。