小白阿伟2024版-优快云博客

原创模型配置文件congi.json各个参数的意思

【代码】模型配置文件congi.json各个参数的意思。

2024-11-28 15:07:16 799

原创报错：RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda

在使用transformers中自带的类SuppressTokensLogitsProcessor出现报错，显示张量不在一个设备上。我特地将代码中的张量都加上to(device)仍然报错。

2024-11-06 17:55:19 907

在大模型的微调过程中，cutoff_len参数用于控制输入文本的截断长度。：模型处理长文本时，计算资源和内存消耗会显著增加。通过设置cutoff_len，可以限制输入文本的最大长度，从而控制内存使用和计算负担。：较长的输入会导致训练时间的增加。截断文本可以加快训练速度，提高训练效率。：长文本可能包含大量细节，这些细节在很多情况下并不重要。截断文本可以帮助模型关注更关键的信息，避免模型记住不必要的细节，从而减少过拟合的风险。：不同长度的文本输入会导致模型处理的不一致性。通过设定统一的cutoff_len。

2024-07-29 11:43:09 4225

原创阿里云DSW中安装Miniconda3——每日一水

确认conda安装成功。

2024-07-26 09:25:41 708 2

原创模型微调参数2——epochs

epochs是指整个数据集被用于训练模型的次数。每个epoch都意味着模型已经看过整个训练数据集一次，并且更新了模型参数。

2024-07-25 09:54:11 1802

原创模型微调参数1——batch size

模型微调中的batch size（批量大小）是指在一次训练迭代中用于更新模型参数的一组样本的数量。更具体地说，batch size决定了在进行一次反向传播（backpropagation）和参数更新之前，模型处理的样本数量。

2024-07-24 14:14:21 2308

原创 Conda 相关命令 ——学习记录

记录下用过的conda 命令

2024-07-23 10:53:43 678

原创 VS Code 无法加载文件 D:\Documents\WindowsPowerShell\profile.ps1，因为在此系统上禁止运行脚本。——每日一水

VScode 出现无法加载文件 D:\Documents\WindowsPowerShell\profile.ps1，因为在此系统上禁止运行脚本。之后再改回原来的策略：Set-ExecutionPolicy Restricted。

2024-07-22 10:16:53 1215 1

原创 vscodeSSH连接虚拟机OpenKylin

左下角显示连上，可以打开文件夹。

2024-07-18 08:48:12 677

原创 Llama-factory的yaml配置参数--学习记录

最近llama-factory的配置参数有很多不懂的地方，整理了一些但也有可能有错，仅供大家参考。

2024-07-17 10:30:20 5396

原创基于阿里云使用llama-factory微调模型--学习记录

进入阿里云官网,选择产品-->选择人工智能与机器学习-->选择人工智能PAI选择免费试用申请一下，之后进入控制台。在工作空间下 -->左侧菜单选择交互建模DSW -->新建实例需要选择资源和镜像。顺便命名下实例。资源我的选择如下：镜像如下：官方镜像最新的。

2024-07-16 10:21:24 883 2

原创自动炼丹基于Llama-factory改写--学习记录

最近在使用llama-factory微调LLM，但是一个个手动修改基本的学习率，学习轮次有太麻烦了。在寻找有没有什么自动调参的办法，在github上看到Llama-factory支持记录实验数据，尝试了一下本小白不太会搞。而且我要的结果不仅是损失小还得是预测的结果达到一定条件，就想着自己尝试在Llama-factory上加点东西，实现我的目标。有什么不对的地方还拜托各位大佬们教教我。

2024-07-16 08:49:13 2568

qq_43691827的博客