自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Datawhale X 魔搭 AI夏令营 task3

在单独使用 Pos的情况下,单个显卡会保存完整的模型参数和梯度。模型在训练过程中需要储存自身的参数和梯度(注意这里还不是Adam最后算出来的参数更新量,只是根据loss反向传播得到的原始梯度),这便需要 2Ψ+2Ψ 的内存,同时混合精度fp32训练时,Adam需要一份fp32大小的模型拷贝,momentum和variance去储存模型的优化器状态,这需要 4Ψ+4Ψ+4Ψ ,最终我们需要 16Ψ𝐵 的内存用于训练,即对于一个GPT-2模型,我们训练时需要24GB的内存,对比一张V100的显存为32GB。

2024-08-17 22:17:15 1543

原创 “DatawhaleX魔搭 AI夏令营 task3

LoRA与训练目标是解耦的,但本文设定就是语言模型建模。以下将给出语言建模(可自然推广到序列建模)的基本符号定义,即最大化给定提示的条件概率(本质是极大似然估计)。给定一个参数为ΦΦ预训练的自回归语言模型PΦ(y|x)PΦ(y|x)。xx为输入,yy为输出note: 为与原文符号一致,下文ΦΦ、ΘΘ、WW均表示模型参数全参数微调每次full fine-tuning训练,学一个 ΔΦΔΦ,|ΔΦ||ΔΦ| 参数量大hold不住语言模型的条件概率分布建模目标高效微调。

2024-08-17 22:07:21 1511

原创 Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向 task02笔记

具体来说,团队定义了一种新的提示格式,用以丰富初始提示的信息,命名为动态精细控制提示、DF-Prompt)文本prompt中的每个token会被拓展成一个三元组,在原有基础上新添加了用来添加权重的浮点数,以及文本生效的时间步范围。DF-Prompt是原本的提示词和修饰词的结合。DF-Prompt 的本质在于促进更精确和控制的生成。为了便于演示和代码实现,我们还定义了一个纯文本格式:[token:range:weight]

2024-08-14 22:23:09 343

转载 Datawhale AI 夏令营 Task2打卡笔记

本地运行大型语言模型的强大工具Ollama是一个开源框架,旨在为本地运行大型语言模型(LLM)提供简便易用的解决方案。是一个开源的、轻量级的本地大模型运行框架,旨在帮助用户轻松地在本地运行和管理各种大型语言模型(LLM)。它提供了一套简单易用的API,用于创建、运行和监控模型,并支持多种流行的LLM,包括GPT-3、Jurassic-1 Jumbo、Megatron-Turing NLG、WuDao 2.0和Bloom等。➡️主要特点简化部署。

2024-08-13 22:13:09 807

原创 Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向 task01笔记

用这种方式估计 μθ(xt,t)μθ(xt,t) 是可行的,但 Ho 等 [3] 提出了另一种训练方法: 训练一个神经网络 ϵθ(xt,t)ϵθ(xt,t) 来预测前面公式 q(xt∣x0)q(xt∣x0) 中的噪声 ϵϵ。对于推理,模型进行两次预测,一次给定类别标签 ϵθ(xt,t∣y)ϵθ(xt,t∣y),一次不给定 ϵθ(xt,t∣∅)ϵθ(xt,t∣∅)。其中 αt:=1−βtαt:=1−βt,¯αt:=∏tk=0αkα¯t:=∏k=0tαk,ϵ∼N(0,I)ϵ∼N(0,I)。

2024-08-11 18:43:22 1922

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除