自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 add_generation_prompt的作用

【代码】add_generation_prompt的作用。

2025-08-03 21:11:05 291

原创 (五)整个训练流程

🧠 为什么要计算 FLOPs?模型的计算复杂度(Computational Cost)单位时间内的推理负担在推理或训练过程中对 GPU/TPU 的压力在不同模型/优化策略之间对比效率的常用指标例如,在大模型推理优化中,经常要回答:我把模型从 13B 降成 7B,FLOPs 降了多少?推理速度快了多少?✅ 举个例子:以一个简单的全连接层为例:​假设输入是,则 FLOPs 计算为:其中 “×2” 是因为每个神经元有一次乘法和一次加法。🧩 为什么可以“用 FLOPs 推估内存占用”?

2025-07-26 21:34:16 867

原创 (四)数据准备

高质量:符合你任务的正确输入输出Diversity:如果输入输出很相似,模型很可能会记住这些信息,模型只会一直回答相似的内容Real:最好使用真实的数据,特别是在写作中,因为生成的数据总会有一些特定的模式More:数据量越大越好。

2025-07-26 21:31:54 320

原创 (三)指令微调是什么

指令微调(instruction-tuned/instruction-following): 属于微调的一种方式。作用:提供更好的与用户交互的能力。例如通过指令微调,让GPT-3变成ChatGPT:对话型数据集,例如FAQ数据集。当然,你可以自己转化得到问答格式的数据集。比如我微调数据中,没有提到code相关的问答数据,但是模型在微调之后,也能够回答。(当然,模型在预训练阶段见过)。但是这说明了微调之后模型能把这种问答的能力迁移到其它的data上面,而不局限于微调数据。

2025-07-26 21:30:32 331

原创 (二) 简要介绍:预训练与微调

简要介绍:预训练与微调Finetuning在训练过程中的位置。

2025-07-26 21:28:56 389

原创 吴恩达【大模型微调】学习笔记:(一)为什么要微调

我总结就是:specialize your model具体来讲,finetuning有以下一些作用:和仅prompt相比,finetuning可以让模型真正学习到你的数据,而不是just access to it更一致的输出或者行为获取知识。

2025-07-26 21:26:31 319

原创 概念篇-什么是自监督(Self-Finetuning)

在学习吴恩达老师的大模型微调课程中,看到他介绍的预训练阶段使用的是自监督的训练方法。但是对概念还是有点混淆,特地了解并记录一下学习笔记。

2025-07-26 18:28:18 1085

原创 Git 仓库中的某个对象文件损坏了

分析:Git 仓库中的某个对象文件损坏了(文件为空),这通常发生在断电、磁盘损坏、磁盘空间不足或者拷贝中断等情况下。OLD_REPO_PATH="./old_repo" # 损坏的本地仓库路径。# Step : 拷贝 $OLD_REPO_PATH 中非隐藏文件,不复制所有带。# ========== 配置部分 ==========# Step : 显示恢复结果(git status)当前情况:有本地未提交的重要修改;" # 修改为你的远程仓库地址。git status输出。

2025-07-06 01:59:19 563

原创 NVIDIA 驱动未正确安装或未正常运行

nvidia-smi 输出报错内容:分析:表明当前系统中。做法:当前我的服务器下面本身有一个文件,用bash命令运行即可。

2025-07-05 14:21:28 515

原创 CNN基础知识(一)输入、通道数与卷积核数

卷积网络中感觉很容易混淆的就是通道数,卷积核数这些概念,参考了一下,觉得这篇文章讲得很清楚。

2024-03-06 14:33:10 2983

原创 跑论文代码时因为Pytorch多进程而产生的报错,复现环境:wins10

后来发现是因为pytorch中使用data loader的时候,源代码中设置了num_workers为4,但是好像在 Windows 操作系统上,由于多进程的实现方式不同,可能这样会导致在使用 DataLoader 时出现问题。在打算复现论文代码的时候发现一直报错,如上所示;

2024-03-04 17:27:32 508 1

转载 解决powershell的红字提示问题

解决“无法加载文件 ***\WindowsPowerShell\profile.ps1,因为在此系统上禁止运行脚本”

2023-07-22 22:20:19 508

原创 linux git仓库

username是自己的设置的username,然后密码password是生成的token。

2023-07-15 19:19:17 290 1

原创 TRuntimeError: Target host is configured as Windows, but seems to be a different OS.

解决办法:在控制面板中找到区域——更改系统区域设置——在beta版前面选中,然后重启即可解决。

2023-05-19 21:04:42 1660 3

转载 jupyter主题页面改变

修改Jupyter Notebook的界面显示_jupyter notebook界面设置_积跬步,慕至千里的博客-优快云博客

2023-03-12 22:45:15 1294

原创 使用pytorch,解决tensorboard显示图片问题

tensorboard如何找到可视化的界面

2023-01-30 19:11:45 703

原创 ubuntu20.04 安装nvidia驱动

nvidia驱动下载

2023-01-22 12:45:21 5323 3

原创 ubuntu20.04 + 安装cuda11.6过程 + pytorch安装记录

ubuntu20.4 + cuda11.6安装

2023-01-22 12:12:15 7037

原创 windows cuda更新过程

windows下cuda的更新过程的记录

2023-01-21 18:51:13 6229

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除