【Linux服务器】——模型训练技巧

部署运行你感兴趣的模型镜像

训练日志

在训练过程中,需要实时监控模型训练效果,可以使用Tensorboard实时监控训练效果;如果使用ssh连接服务进行模型训练时,训练时间过长,可以设置在后台训练模型,这样退出终端也能继续训练

一、使用Tensorboard实时监控训练情况

1. 启动Tensorboard

# 注:results是存放训练文件的目标文件夹
tensorboard --logdir=./results

2.打开终端中的6006端口的地址

在这里插入图片描述

二、后台训练

有时候使用服务器时训练模型依旧消耗很多时间,并且终端随时有关闭的风险,我们可以设法让脚本在后台运行,即使退出终端也不影响任务继续

训练模型

# 模型训练
python main.py --mode train  --data_dir data/processed_data/CollegeMsg_snapshots_lables --batch_size 4 --temporal_window 4

使用训练好的模型进行实验

1. 终端中测试

# 正常终端中的实验指令
python main.py --mode influence_max --k 5 --data_dir data/processed_data/CollegeMsg_snapshots_lables --model_path results/data=CollegeMsg_snapshots_lables_tw=4_bs=4_gh=64_gl=2_lh=128_ll=2_ep=300_20250812_145339/best_model.pth --temporal_window 4 

2. 后台测试(!!!!)

既然是一次性在后台运行,最简单可靠的方法是用 nohup + &(配合 -u 关闭 Python 缓冲),并把输出重定向到日志文件。

# 下面是后台测试指令
nohup python -u main.py --mode influence_max --k 5 --data_dir /root/data1/MyProject/DynamicGraphInfluenceMaximization-AAAI2025-main/data/processed_data/CollegeMsg_snapshots_lables --model_path /root/data1/MyProject/DynamicGraphInfluenceMaximization-AAAI2025-main/results/data=CollegeMsg_snapshots_lables_tw=4_bs=4_gh=64_gl=2_lh=128_ll=2_ep=300_20250812_145339/best_model.pth --temporal_window 4 > run.log 2>&1 & echo $!
2.1 查看进程的运行情况
ps aux | grep main.py

在这里插入图片描述

2.2 查看日志
tail -f run.log

在这里插入图片描述
在这里插入图片描述

2.3 停止进程
#(用 echo $! 得到的 PID 或从 ps 找到的 PID)
kill PID 
2.4 若不退出再强制
kill -9 PID
2.5 查看cpu运行情况
top

在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### 如何在AutoDL服务器上设置和运行机器学习模型训练任务 #### 选择合适的硬件资源 进入AutoDL平台后,需先挑选适合当前项目的硬件资源。对于大多数深度学习任务而言,GPU是必不可少的选择之一。用户可以根据具体需求,在平台上选取不同规格的GPU实例来满足计算能力的要求[^1]。 #### 创建并启动虚拟机实例 选定所需的硬件配置之后,下一步就是创建一个新的云主机实例。在此过程中可以选择预安装了特定框架(如PyTorch)的基础镜像,以便简化后续开发环境搭建的工作量。确认无误后提交订单等待实例初始化完成即可[^4]。 #### 远程连接至云端工作空间 一旦实例成功部署上线,则可以通过多种方式建立与之之间的安全通信链路。一种常见的做法便是借助SSH协议实现命令行级别的交互操作;而对于更复杂的IDE集成场景来说,推荐采用支持插件扩展功能的强大编辑器——比如JetBrains旗下的PyCharm Professional Edition或是微软推出的Visual Studio Code配合相应的Remote Development套件来进行无缝对接。 #### 配置必要的依赖库及工具包 首次登录新分配给自己的Linux系统账户时,默认情况下可能只包含了最基础的服务组件集合。因此有必要依据个人喜好额外补充一些常用软件包,例如Git版本控制系统用于同步源码仓库、Anaconda/Miniforge分发渠道管理Python解释器及其第三方模块等。此外还需注意确保CUDA驱动程序版本号同所选图形处理器相匹配以充分发挥后者加速运算的优势特性[^2]。 #### 准备数据集文件结构布局规划 考虑到网络传输效率因素影响,建议尽可能提前准备好本地副本并通过SCP/SFTP等方式上传到指定目录下供在线调用访问。与此同时也要兼顾良好组织各类素材存放位置关系的设计思路,遵循一定命名约定习惯有助于后期维护工作的开展实施[^3]。 #### 编写脚本定义实验逻辑流程控制语句 最后一步则是精心构思一套完整的自动化作业方案文档,涵盖但不限于参数调整策略设定、损失函数优化算法选用等方面考量要点。编写清晰易懂且具备可重复执行特性的Shell/Bash批处理指令序列或者Python入口函数作为触发机制的核心部分。 ```bash #!/bin/bash # 设置环境变量 export PYTHONPATH=$PYTHONPATH:/path/to/project # 启动TensorBoard可视化服务 (如果需要的话) tensorboard --logdir=./runs & # 开始正式训练过程 python train.py \ --epochs=100 \ --batch-size=16 \ --data=/dataset/path \ --weights='' \ --project='my_project' \ --name='exp' ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

花间相见

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值