用LLama factory时报类似Process 2504721 got signal: 1的解决方法

之前用nohup来远程跑LLama factory微调脚本,是没有问题的,但今天发现运行类似下面这个命令时,

nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml

只要一关闭ssh session,就会终止训练,报类似:

nohup torch.distributed.elastic.multiprocessing.api.SignalException: Process 2504721 got signal: 1

的错。解决方法其实也很简单,参考了一下下面这些网页:

nohup后台运行命令,关闭shell后进程会终止_nohup 退出服务器后进程消失-优快云博客

llamafactory大模型微调单卡转多卡出现SignalException: Process 3232810 got signal: 1错误_torch.distributed.elastic.multiprocessing.api.sign-优快云博客

针对我上面这个命令,解决方法是,首先输入:

nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml &

然后回车,再在终端里输入exit,然后再关闭ssh session即可。也有朋友说可以用tmux,但是我嫌麻烦就没有尝试:

nohup训练pytorch模型时的报错以及tmux的简单使用 - gy77 - 博客园

就简单总结这么多,主要是现在大模型微调太费事,如果跑了一半出现这种问题真的很让人崩溃。 

### 关于llama runner进程被终止(信号:已杀死)的原因分析 当遇到`llama runner process has terminated: exit status 0xc0000409`错误时,这通常意味着由于非法地址访问或其他严重异常导致的崩溃[^1]。对于`Program terminated with signal SIGKILL, Killed`的情况,则表明操作系统主动结束了该进程,可能是资源不足或内核检测到不可恢复的错误所致[^2]。 针对C++编译器内部错误并报告“已被杀死”的情形,在安装复杂软件包如ORB_SLAM2过程中出现此类问题是比较常见的现象之一,其背后可能隐藏着内存泄漏、硬件兼容性不佳或是环境配置不当等问题[^3]。 最后一种情况提到的是`signal: aborted (core dumped)`,这种类型的失败往往伴随着核心转储文件生成,暗示应用程序遇到了致命条件而自行请求终止,同时也允许开发者事后调试这些转储来诊断具体原因[^4]。 ### 解决方案建议 为了有效处理上述提及的各种形式的意外退出问题,可以采取如下措施: #### 调整系统参数与优化资源配置 如果是因为物理内存不够引起的操作系统强制结束应用,考虑增加交换空间大小或者减少其他不必要的后台服务占用以释放更多可用RAM给目标程序使用;另外还可以尝试调整操作系统的超线程设置以及关闭任何可能导致干扰的服务/守护进程。 #### 更新依赖库和工具链版本 确保所使用的开发工具集是最新的稳定版,并且所有必要的第三方库都已经更新到了最新状态。有时旧版本可能存在未修复的安全漏洞或者是性能瓶颈从而间接引发稳定性方面的问题。 #### 安装官方提供的补丁或重新部署整个平台 按照官方文档指示完成最新的安全更新及功能改进之后再试一次。如果是开源项目的话也可以查看是否有社区成员提交过类似的patch解决办法。必要时甚至可以从头开始全新搭建一套干净的工作环境来进行测试验证。 #### 使用更稳定的替代品 假如经过多次排查依旧无法根治现有难题,不妨寻找功能相似但是更加成熟可靠的备选方案作为临时过渡手段直到原始选择变得可行为止。 ```bash curl -fsSL https://ollama.com/install.sh | sh ``` 此命令可以帮助用户获取来自Ollama官方网站上的最新安装脚本并执行它,以此方式可能会绕过某些本地存在的潜在冲突因素实现正常工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值