- 博客(16)
- 收藏
- 关注
原创 【HuggingFace LLM】模型微调代码
由于不是一个用于分类的模型,因此其其模型头会在这里发生替换(预训练的模型头会被丢掉,取而代之的是一个分类模型头),产生的新随机参数需要通过后续训练进行确认。model,其中是指定tokenizer的参数。使用上述api即可开始训练。
2025-12-23 17:03:59
586
原创 【HuggingFace LLM】大模型文本任务数据预处理
tokenizeridscheckpointlabels但是数据量过少,没法很好的训练模型。
2025-12-23 17:02:15
400
原创 【HuggingFace LLM】大模型本地部署流程
llama.cpp则是高度优化的c/cpp实现,专注于 CPU 效率和可选的 GPU 加速,适合。TGI :企业级部署, Kubernetes,监控、自动扩展、企业级日志记录和各种保护措施;llama.cpp:轻量级的,在各种硬件上运行,比其他解决方案小得多的资源占用。vLLM:开发人员友好,提供原始性能,根据特定需求进行定制。,所以需要一台带GPU的电脑才能跑起来这个镜像。与官网的案例有不同,但是这版可以运行,应该是。,这部分已学习,后续将具体公式做双链。中运行如下代码,运行该。镜像中,因此需要下载。
2025-12-22 13:05:53
898
原创 【HuggingFace LLM】经典NLP Tasks数据流转
在本例中是具有基本架构(12 层、768 个隐藏大小、12 个注意力头)和大小写输入(意味着大写/小写区分很重要)的 BERT 模型。时,由于不同句子之间的字数不同,需要用到padding方法。如果是手动传入多个input_ids制作张量时,可以使用。,那么分词器中就需要添加,否则模型也可以不输入他们。在预训练中已被加入,因此需要自己手动添加特殊。还可以截断序列,并且可以和最大长度混用。可以发现,缺失一个填充值在批输入时有。,模型会无法处理,需要及时截断。,而在Bert等系列中,这些特殊。
2025-12-22 13:02:44
335
原创 【HuggingFace LLM】一些基础知识
无论是Top-k还是Top-p,通常都与Temperature(温度)参数协同工作。采样策略(Top-k/p)决定了“候选池里有哪些词”,而Temperature则决定了“从池子里选哪个词”的。较低的Temperature(如0.1-0.3)会让模型更倾向于。通过模型的神经网络运行这些嵌入,以创建对上下文的丰富理解。将输入文本转换为标记(将这些视为模型理解的基本构建块),是模型在生成响应时可以一次考虑的最大标记数。在解码阶段中,通过回顾之前的tokens,去。(单词或单词的一部分)。
2025-12-19 09:50:24
898
原创 【HuggingFace LLM】2种改进注意力机制原理浅析
LSH Attention(局部敏感哈希注意力)是一种用于降低Transformer模型在处理长序列时计算和内存开销的技术。序列长度 n=8n=8n=8,每个 token 的键/查询向量 2 维(为了手算)。排序后的新顺序及索引映射:[x4,x8,x3,x7,x2,x6,x1,x5]取符号位(正=1,负=0)。小的向量对具有更高的相似度,因此是导致分母权重偏大的关键键。是一个随机向量,也是通过多轮随机向量碰撞,找到。(或非常小),softmax 后几乎为 0,即。,若为正数则激活为1,反之则为-1或0。
2025-12-19 09:48:15
820
原创 【HuggingFace LLM】Transformer pipeline
transformers的pipeline库支持以下功能,该篇章仅作介绍。支持列表多句分析零样本(Zero-shot)分类支持带标签分类随机续写内容支持直接续写支持指定模型,指定续写的最大长度(现在一般用代替)、返回序列数等。掩码内容生成在这里也可以看出来,交互式编程和IDE编程的时候还是不一样的。其中表示对分词器做约束,防止把地名、人名给分割开来。这里的自动问答 pipeline 是一个抽取式问答模型,从给定的上下文中抽取答案,而不是生成答案。
2025-12-18 17:07:03
364
原创 【强化学习】一文搞懂Sarsa算法!
在Sarsa学习过程中,通过下述迭代求解随机近似方程以获得qπ(s,a)q_{\pi}(s,a)qπ(s,a)动作值:qπ(St=s,At=a)=E[Rt+1+γqπ(St+1,At+1)∣St=s,At=a](1)q_{\pi}(S_t = s,A_t=a)=\mathbb{E}[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})|S_t=s,A_t=a] \tag{1}qπ(St=s,At=a)=E[Rt+1+γqπ(St+1,At+1)∣St=s,At
2025-08-05 18:26:06
547
原创 【深度学习】大模型-Transformer
把输入的单词用one-hot进行编码,长度是现有所有单词。问题:词与词之间没有关联,余弦相似度都为0,且内存开销大。包括[[003 embedding#CBOW模型|Word2Vec]]、[[005 ELMO模型|ELMO]]等不同模型,由静态到动态的表征一个输入词的word embedding。word embedding克服了one-hot硬编码的问题,使得含义相近的词在多维空间上有近似的点位。比如这种任务也叫做,这种任务采用传统FC存在一个较大问题:但是第二个、第四个肯定是不同的词性,但是仅通过输入完
2025-06-30 21:13:29
849
原创 【深度学习】DDIM详细公式以及损失函数推导
p(xt∣xt+1,x0)=p(xt+1∣xt,x0)p(xt∣x0)p(xt+1∣x0)=p(xt+1∣xt)p(xt∣x0)p(xt+1∣x0)\begin{aligned}p(x_t|x_{t+1},x_0)&=\frac{p(x_{t+1}|x_t,x_0)p(x_t|x_0)}{p(x_{t+1}|x_0)} \\&=\frac{p(x_{t+1}|x_{t})p(x_t|x_0)}{p(x_{t+1}|x_0)} \\\end{aligned}p(xt∣xt+1,x0)=p(x
2025-06-16 20:57:35
985
原创 【深度学习】MLE视角下VAE到DDPM的Loss推导 02
图中是基于MHVAE的标注,替换为x→x0x \rightarrow x_0x→x0、zi→xiz_i \rightarrow x_izi→xi其中加噪过程q(xt∣xt−1)q(x_{t}|x_{t-1})q(xt∣xt−1)是人为的,具体公式参考[[001 DDPM-v2]],因此不添加ϕ\phiϕ参数;其中去噪过程pθ(xt−1∣xt)p_{\theta}(x_{t-1}|x_t)pθ(xt−1∣xt)是需要学习的,因此添加θ\thetaθ参数进行神经网络参数化操作;参考上述MLE推
2025-04-30 10:00:12
821
原创 【深度学习】MLE视角下VAE到DDPM的Loss推导 01
这类模型最大的特点就是希望实现θ=argmaxθEx∼pdata(x)[log(pθ(x))]\theta = \arg\max \limits_{\theta} \mathbb{E}_{x \sim p_{data}(x)}[log(p_{\theta}(x))]θ=argθmaxEx∼pdata(x)[log(pθ(x))]上述式子是啥意思呢?θ\thetaθ是神经网络的参数集合,pθ(x)p_{\theta}(x)pθ(x)是神经网络模型学习(拟合)得到的分布。所以上式意思是我希望我
2025-04-30 09:59:39
761
2
原创 【深度学习】DDPM讲的最透彻的一集!02
上述过程我觉得更应该理解为一个假设过程,所有图片可以在噪声的影响下一步步的变化为一个噪声,那么如果我有一张标准高斯噪声图,是不是也可以逆流程一步步还原回去?天才!xt=1αt+1(xt+1−βt+1ϵt+1)p(xt∣xt+1)=N(xt+1αt+1,βt+1αt+1I)【对吗???】\begin{aligned}x_t&=\frac{1}{\sqrt{\alpha_{t+1}}}(x_{t+1}-\sqrt{\beta_{t+1}}\epsilon_{t+1}) \\p(x_t|x_{t+1})&
2025-04-30 09:56:44
1587
原创 【深度学习】DDPM讲的最透彻的一集!01
感性的认识出发,我有一张x0x_0x0照片,对其进行不断的加高斯白噪声ϵ∼N(0,I)\epsilon \sim N(0,I)ϵ∼N(0,I),那么在T→∞T \rightarrow \inftyT→∞次加噪后,原本清晰的图像会变成一个标准的高斯白噪声。当然里面需要加一些附属条件xt+1=αt+1xt+1−αt+1ϵt+1,ϵt+1∼N(0,I)\begin{aligned}x_{t+1}&=\sqrt{\alpha_{t+1}}x_t+\sqrt{1-\alpha_{t+1}}\epsilon_{
2025-04-30 09:55:45
1414
原创 【深度学习】从VAE到GAN漫谈
z=pθ(x)x^=qϕ(z)L=12∥x−x^∥2\begin{aligned}z &= p_\theta(x) \\\hat{x} &= q_\phi(z) \\\mathcal{L} &= \frac{1}{2}\Vert x-\hat{x} \Vert_2\end{aligned}zx^L=pθ(x)=qϕ(z)=21∥x−x^∥2AE的x−>z−>x^x->z->\hat{x}x−>z−>x^是一一映射确定的关系,这就意味着作为一个生成模型他是不够格的,想象一下我有一批样本
2025-04-28 15:32:36
1983
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅