- 博客(13)
- 收藏
- 关注
原创 报错:RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda
在使用transformers中自带的类SuppressTokensLogitsProcessor出现报错,显示张量不在一个设备上。我特地将代码中的张量都加上to(device)仍然报错。
2024-11-06 17:55:19
907
原创 模型微调参数3——cutoff_len
在大模型的微调过程中,cutoff_len参数用于控制输入文本的截断长度。:模型处理长文本时,计算资源和内存消耗会显著增加。通过设置cutoff_len,可以限制输入文本的最大长度,从而控制内存使用和计算负担。:较长的输入会导致训练时间的增加。截断文本可以加快训练速度,提高训练效率。:长文本可能包含大量细节,这些细节在很多情况下并不重要。截断文本可以帮助模型关注更关键的信息,避免模型记住不必要的细节,从而减少过拟合的风险。:不同长度的文本输入会导致模型处理的不一致性。通过设定统一的cutoff_len。
2024-07-29 11:43:09
4225
原创 模型微调参数2——epochs
epochs是指整个数据集被用于训练模型的次数。每个epoch都意味着模型已经看过整个训练数据集一次,并且更新了模型参数。
2024-07-25 09:54:11
1802
原创 模型微调参数1——batch size
模型微调中的batch size(批量大小)是指在一次训练迭代中用于更新模型参数的一组样本的数量。更具体地说,batch size决定了在进行一次反向传播(backpropagation)和参数更新之前,模型处理的样本数量。
2024-07-24 14:14:21
2308
原创 VS Code 无法加载文件 D:\Documents\WindowsPowerShell\profile.ps1,因为在此系统上禁止运行脚本。——每日一水
VScode 出现无法加载文件 D:\Documents\WindowsPowerShell\profile.ps1,因为在此系统上禁止运行脚本。之后再改回原来的策略:Set-ExecutionPolicy Restricted。
2024-07-22 10:16:53
1215
1
原创 Llama-factory的yaml配置参数--学习记录
最近llama-factory的配置参数有很多不懂的地方,整理了一些但也有可能有错,仅供大家参考。
2024-07-17 10:30:20
5396
原创 基于阿里云使用llama-factory微调模型--学习记录
进入阿里云官网,选择产品-->选择人工智能与机器学习-->选择人工智能PAI选择免费试用申请一下,之后进入控制台。在工作空间下 -->左侧菜单选择交互建模DSW -->新建实例需要选择资源和镜像。顺便命名下实例。资源我的选择如下:镜像如下:官方镜像 最新的。
2024-07-16 10:21:24
883
2
原创 自动炼丹基于Llama-factory改写--学习记录
最近在使用llama-factory微调LLM,但是一个个手动修改基本的学习率,学习轮次有太麻烦了。在寻找有没有什么自动调参的办法,在github上看到Llama-factory支持记录实验数据,尝试了一下本小白不太会搞。而且我要的结果不仅是损失小还得是预测的结果达到一定条件,就想着自己尝试在Llama-factory上加点东西,实现我的目标。有什么不对的地方还拜托各位大佬们教教我。
2024-07-16 08:49:13
2568
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅