Ray项目内存问题调试完全指南

滕妙奇

于 2025-05-30 09:11:12 发布

阅读量248

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00212/article/details/148326118

在分布式计算框架Ray中，内存管理是一个关键问题。当系统内存不足时，可能会导致任务失败、性能下降甚至系统崩溃。理解如何诊断和解决内存问题对于保证Ray应用的稳定运行至关重要。

内存是有限的系统资源。当进程请求内存而操作系统无法分配时，Linux会启动OOM Killer机制，通过发送SIGKILL信号终止高内存占用的进程来维持系统稳定。

Ray 2.2版本引入了应用级内存监控器，它会持续监控主机内存使用情况，在Linux OOM Killer触发前主动终止Ray工作进程，从而提供更优雅的错误处理和故障恢复机制。

当Linux OOM Killer终止任务或Actor时，Ray工作进程无法捕获和处理SIGKILL信号，因此会显示以下类型的错误信息：

Worker exit type: UNEXPECTED_SYSTEM_EXIT
Worker exit detail: Worker unexpectedly exits with a connection error code 2. End of file...

可以使用dmesg命令验证进程是否被OOM Killer终止。

当Ray内存监控器终止工作进程时，会显示更清晰的错误信息：

ray.exceptions.OutOfMemoryError: Task was killed due to the node running low on memory.

内存监控器还会定期向Ray驱动程序打印内存使用摘要：

(raylet) 10 Workers (tasks / actors) killed due to memory pressure (OOM)...

Ray仪表板提供了每个任务和Actor的内存使用图表。内存使用量计算为RSS(常驻内存)减去SHR(共享内存)：

总内存使用量 = 对象存储内存(约30%主机内存) + 各进程(RSS-SHR)之和 + 系统组件内存

htop可以直观显示各进程的内存使用情况，重点关注allocate_memory等任务的内存占用。

Ray头节点运行着GCS、仪表板等系统组件，默认情况下驱动程序也在头节点运行。如果头节点内存不足：

高并行度可能导致内存不足。例如：

解决方案：

使用memray等工具分析任务和Actor的内存使用：

通过以上方法和工具，可以有效诊断和解决Ray应用中的内存问题，确保分布式计算任务稳定高效地运行。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考