自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Tiziano68的博客

挫折在所难免,放弃不可饶恕

  • 博客(9)
  • 收藏
  • 关注

原创 论文笔记12:强化学习训练大语言模型结合搜索引擎

LLM在自然语言理解和生成方面展现出卓越的能力。尽管如此,LLM 在执行复杂推理和从外部来源检索最新信息时仍常常面临挑战。克服这些局限性需要整合高级推理能力以及与搜索引擎有效交互的能力,以便最大限度地利用外部最新信息1.1 将LLM与搜索引擎集成的方法通常分为两类:(1) 检索增强生成 (RAG) 和 (2) 将搜索引擎视为工具RAG 模型通常根据 LLM 的输入作为查询检索段落,并将其合并到 LLM 的上下文中进行生成。这使得 LLM 能够在回答问题时利用外部知识。

2025-07-02 16:37:00 875 1

原创 论文笔记11:CPL原理详解

基于人类反馈的强化学习算法通常分为两个阶段:首先,利用人类偏好学习奖励函数;其次,通过RL优化学习到的奖励,从而对齐模型。该范式假设人类偏好是根据奖励分布的,但最近的研究表明,它们的分布遵循用户最优策略下的遗憾值。从反馈中学习奖励函数不仅基于对人类偏好的错误假设,而且还会导致难以处理的优化挑战,这些挑战源于 RL 阶段的策略梯度或引导偏好模型错误:假设人类偏好基于奖励的折扣和(partial return),但实际基于后悔值(regret)(即当前行为与最优策略的差距)优化挑战。

2025-07-01 17:43:59 759 1

原创 论文笔记10:DoRA原理详解

DoRA 将预训练的权重分解为幅度和方向两个部分进行微调,具体来说,使用 LoRA 进行方向更新,以有效地最小化可训练参数的数量。通过采用 DoRA,我们增强了 LoRA 的学习能力和训练稳定性,同时避免了任何额外的推理开销。在对 LLaMA、LLaVA 和 VL-BART 进行微调方面,DoRA 在各种下游任务(例如常识推理、视觉指令调整以及图像/视频文本理解)上始终优于 LoRA使用广泛的通用领域数据集进行预训练的模型已展现出卓越的泛化能力,显著惠及从NLP任务到多模态任务等众多应用。

2025-06-30 15:51:15 642 1

原创 论文笔记9:AdaLoRA原理详解

当存在大量下游任务时,微调预训练模型中的所有参数这种方法会变得难以实现。因此诞生许多旨在以参数高效的方式学习预训练权重的增量更新。这些方法通常将增量更新的预算均匀分布在所有预训练权重矩阵上,而忽略了不同权重参数的不同重要性。因此,微调性能并非最优。为了弥补这一缺陷,提出了 AdaLoRA,根据权重矩阵的重要性得分自适应地分配参数预算。AdaLoRA 以奇异值分解的形式对增量更新进行参数化。

2025-06-30 12:54:20 1302 1

原创 论文笔记8:LoRA详解

低秩自适应方法,它冻结预训练模型的权重,并将可训练的秩分解矩阵注入 Transformer 架构的每一层,从而大大减少了下游任务的可训练参数数量一、简介LoRA是一种机器学习技术,它通过仅调整模型参数中一小部分低秩子集来修改预训练模型,使其更适合特定(通常较小)的数据集。这种方法非常重要,因为它允许在特定任务数据上对大型模型进行高效微调,从而显著降低微调所需的计算成本和时间自然语言处理中的许多应用依赖于将一个大规模预训练语言模型适配到多个下游应用。

2025-06-29 19:16:23 1707 1

原创 论文笔记5:DPO~Your Language Model is Secretly a Reward Model

虽然大规模无监督语言模型 (LM) 能够学习广泛的世界知识和一些推理技能,但由于其训练完全无监督的特性,实现对其行为的精确控制十分困难现有的实现中,通常使用RLHF。然而,RLHF 是一个复杂且通常不稳定的过程,首先需要拟合一个反映人类偏好的奖励模型,然后使用强化学习对大型无监督语言模型进行微调,以最大化该估计奖励,同时又不会偏离原始模型太远本文中引入了一种新的 RLHF 奖励模型参数化方法,可以提取相应的最优策略的闭式形式,能够仅用简单的分类损失来解决标准的 RLHF 问题。

2025-06-27 12:01:23 1149 1

原创 论文笔记2:Conformer--用于语音识别的卷积增强 Transformer+项目实践

Transformer 模型擅长捕捉基于内容的全局交互,而 CNN 则能够有效地利用局部特征。二者结合,这让模型在ASR领域有不错的效果- 虽然 Transformer 擅长建模长距离全局上下文,但它们提取细粒度局部特征模式的能力较弱。- 另一方面,CNN 可利用局部信息,在视觉领域被用作事实上的计算模块。它们在局部窗口上学习基于位置的共享核,从而保持平移等变性,并能够捕捉边缘和形状等特征。使用局部连接的一个局限性是,需要更多的层或参数来捕捉全局信息ConformerConFormer)是一种结合了和。

2025-06-23 16:44:05 687 1

原创 论文笔记1:改进的去噪扩散概率模型详解

去噪扩散概率模型已被证明能够在图像和音频领域生成出色的样本。本篇论文对模型进行细微修改就可以在保持较高样本质量的同时,在图像领域实现具有竞争力的对数似然函数。此外,模型还允许以较少的扩散步骤进行采样,而样本质量的差异却很小。改进噪声调度混合目标函数方差学习(Learning重要性采样加速训练高效采样1.在采用混合目标下,该模型获得的对数似然比直接优化对数似然获得的模型更好,并且发现后者在训练过程中会产生更多梯度噪声。2.研究了样本质量和对数似然如何随着采样时使用的扩散步数的变化而变化。

2025-06-03 21:38:25 834 1

原创 Ubuntu中卸载zsh导致终端无法正常启动

博主在Ubuntu中尝试使用ZSH进行终端美化,但美化结果不尽人意,故进行卸载。燃鹅,再次打开vscode终端时缺发生报错。因此,在此记录一下修正过程。美化的终点竟然是默认设置,结局真是幽幽又默默呀。

2025-05-03 19:23:19 228

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除