大模型 | NEFTune之引入随机噪声对大模型训练的收益

最新推荐文章于 2025-03-06 14:25:15 发布

原创

最新推荐文章于 2025-03-06 14:25:15 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #深度学习

大模型 | NEFTune之引入随机噪声对大模型训练的收益

paper中提到，在模型foward过程中，对inputs_embedding增加适度的随机噪声，会带来显著的收益。

Paper: https://arxiv.org/pdf/2310.05914.pdf
Github: https://github.com/neelsjain/NEFTune

文章目录

大模型 | NEFTune之引入随机噪声对大模型训练的收益
理论
一. 实践方法

理论

核心是输入经过Embedding层后，再加入一个均匀分布的噪声，噪声的采样范围为 $[-\frac{\alpha}{\sqrt{Ld}},\frac{\alpha}{\sqrt{Ld}}]$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jdmike

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

NEFTUNE: NOISY EMBEDDINGS IMPROVE INSTRUCTION FINETUNING

c_cpp_csharp的专栏

10-26

533

我们展示了语言模型微调可以通过简单的增强来改进，有时甚至是显著的改进。NEFTune在训练期间向嵌入向量添加噪声。使用Alpaca对LLaMA-2-7B的标准微调在AlpacaEval上实现了29.79%，而使用噪声嵌入时，这一比例上升到64.69%。NEFTune还改进了现代指令数据集上的强基线。使用Evol Instruct训练的模型可以看到10%的改进，使用ShareGPT8%的改进，OpenPlatypus改进了8%。

大模型LoRA微调调参的实战技巧(持续更新)

热门推荐

herosunly的博客

05-01

20万+

本文主要介绍了大模型LoRA微调调参的实战技巧，希望对学习大语言模型的同学们有所帮助。文章目录 1. 前言 2. 实战技巧

参与评论您还未登录，请先登录后发表或查看评论

噪声嵌入提升语言模型微调性能

人工智能讲师分享前沿技术

05-04

1286

实验表明，使用噪声嵌入对原始LLM（如LLaMA-2-7B）进行微调时，其在AlpacaEval上的性能从29.79%提升至64.69%，显示出约35个百分点的显著提升。最近，一篇名为《NEFTUNE: NOISY EMBEDDINGS IMPROVE INSTRUCTION FINETUNING》的论文提出了一种新颖的方法，通过在训练过程中向嵌入向量添加噪声来提升模型的微调性能。在传统的语言模型微调中，模型的嵌入层会将输入的词汇映射为固定长度的向量，这些向量随后会被用来生成模型的输出。

net.tune:go 1.3 的可调 TCP 侦听器

06-22

网调 go 1.3+ 的可调 TCP 侦听器。为 TCP 套接字提供额外的选项。概述 tune.TuneAndListen函数的工作方式与net.Listen相同，具有。 // sets SO_REUSEPORT on the socket listener, err := tune.TuneAndListen("tcp", "0.0.0.0:80", tune.ReusePort) 支持的套接字选项 SO_REUSEPORT : ReusePort TCP_FASTOPEN : FastOpen 支持的平台达尔文 linux 谢谢基于 steview 的。

NEFTune 噪声增强微调

m0_63372012的博客

08-14

660

NEFTune（Noise-Enhanced Fine-Tuning）是一种新兴的优化技术，它通过引入噪声来增强模型的微调过程。与传统的优化方法不同，NEFTune 利用了噪声来帮助模型跳出局部最优解，从而找到更好的全局最优解。这种方法尤其适用于大模型和复杂的训练任务。

NEFTune: 通过简单的噪声提升指令精调效果

Steve Wang's blog

11-16

2194

NEFTune方法的原理仅使用一句话就可以描述清楚：在finetune过程的词向量中引入一些均匀分布的噪声即可明显地提升模型的表现

大模型自我认知微调的实战教程

herosunly的博客

12-30

4万+

本文主要介绍了大模型自我认知微调的实战教程，希望对学习大语言模型的同学们有所帮助。微调成功并保留原有能力的截图如下所示：文章目录 1. 前言 2. 配置环境 2.1 安装虚拟环境 2.2 安装依赖库 3. 实战代码 3.1 配置数据集 3.2 lora微调

一篇文章快速认识YOLO11 | 关键改进点 | 安装使用 | 模型训练和推理

黎国溥

10-08

3万+

本文分享YOLO11的关键改进点、性能对比、安装使用、模型训练和推理等内容。YOLO11 是 Ultralytics 最新的实时目标检测器，凭借更高的精度、速度和效率重新定义了可能性。除了传统的目标检测外，YOLO11 还支持目标跟踪、实例分割、关键点姿态估计、OBB定向物体检测（旋转目标检测）等视觉任务。1. YOLOv3：核心改进：YOLOv3 是 YOLO 系列的第三代，由 Joseph Redmon 于 2018 年发布，标志着 YOLO 从原始的单尺度检测进化到多尺度检测。

大模型—开源提示工程指南和工具

07-20

4万+

比以往任何时候都多的公司推出了他们自己的AI工具，从简单的聊天机器人到自动化，或项目管理工具。正如麦肯锡所说，“提示工程很可能在未来几年成为一个更大的招聘类别”。获得期望的结果并不那么复杂，但需要实践才能向计算机提供具体、清晰的指令。

大模型——基于CrewAI的数据科学自动化

最新发布

03-06

3310

在这篇文章中，我将演示如何使用AI代理创建一个端到端的数据科学管道，以自动化数据检索、预处理、训练和评估。在这篇文章中，我将演示如何使用AI代理创建一个端到端的数据科学管道，以自动化数据检索、预处理、训练和评估。

探索LLM调优的新境界：NEFTune开源项目详解与应用实践

gitblog_00099的博客

06-10

543

探索LLM调优的新境界：NEFTune开源项目详解与应用实践随着自然语言处理（NLP）领域的飞速发展，大型语言模型（LLMs）的微调成为提升特定任务性能的关键步骤。在这一背景下，NEFTune——一个通过引入随机噪声至嵌入向量以增强指令微调效果的创新方法，应运而生，并迅速集成至Hugging Face的TRL库及HF Trainer，以及Ludwig.ai平台中。让我们深入了解这个看似简单却功...

大模型微调技巧：在 Embeeding 上加入噪音提高指令微调效果

2201_75499313的博客

12-16

1689

NEFTune方法可以缓解模型在指令微调阶段的过拟合现象，可以更好的利用预训练阶段的知识内容。但研究目前还存在一些缺陷，例如评价器为GPT4、没有在更大的模型上进行实验。

【论文笔记】NEFTune: Noisy Embeddings Improve Instruction Finetuning

小嗷犬的博客

01-05

1287

我们表明，通过简单的增强，语言模型微调可以得到改进，有时甚至可以显著提高。NEFTune在训练过程中向嵌入向量添加噪声。使用Alpaca对LLaMA-2-7B进行标准微调，在AlpacaEval上的成绩为29.79%，而使用带噪声的嵌入时，成绩上升至64.69%。NEFTune在现代指令数据集上也优于强大的基线。使用Evol-Instruct训练的模型提高了10%，ShareGPT提高了8%，OpenPlatypus提高了8%。

NEFTune，SFT训练阶段给Embedding加噪音

smartcat2010的博客

12-09

249

仿照CV里，数据增强的思路（给图像做旋转、反转、改变亮度等）；NLP里，SFT训练数据较少时，也可往embedding上加噪音，来增加训练数据的丰富程度。进而提升最终训练效果。前提假设：Embedding向量，其附近的向量，是语义相似的。

一行代码提高大模型10%性能，开发者：免费午餐

量子位

10-22

263

克雷西发自凹非寺量子位 | 公众号 QbitAI大模型微调有“免费的午餐”了，只要一行代码就能让性能提升至少10%。在7B参数量的Llama 2上甚至出现了性能翻倍的结果，Mistral也有四分之一的增长。虽然这种方法用在监督微调阶段，但RLHF模型也能从中受益。来自马里兰州大学、纽约大学等机构的研究人员提出了名为NEFT(une)的微调方式。这是一种新的正则化技术，可以用于提高微调监督（SF...

【LLM 论文阅读】NEFTU N E: LLM微调的免费午餐

yanqianglifei的专栏

01-09

1732

在Alpaca-NEFT回复中，该模型提供了一个更流畅的答案，对这些主题，更清晰的解释了叠加和量子纠缠，并提到了潜在的应用。然而，性能的提高没有全面微调的明显。然而，在NEFTune中，我们看到了相当大的额外性能增长10%，尽管我们注意到这个检查点模型的一些功能可能会受到影响，比如它避免输出有毒行为的能力。在本文中，我们提出在微调正向传递的过程中，在训练数据的嵌入向量中添加随机噪声，论文实验显示这个简单的技巧可以提高指令微调的效果，通常有很大的优势，而不需要额外的计算或数据开销。

探索.NET内部机制：Tune - 极致的.NET实验平台

gitblog_00051的博客

05-24

433

探索.NET内部机制：Tune - 极致的.NET实验平台在编程的世界里，深入理解底层运行机制是提升技能的关键步骤之一。为此，我们向您推荐一个独特而强大的开源项目——Tune，它是专为.NET开发者设计的一个实验平台，让您能够通过编写C#代码亲身体验.NET内核和性能优化。 1、项目介绍 Tune是一个创新工具，它允许您编写简单的C#脚本，然后执行并观察其运行时的表现。通过它的图形界面，您可以查...

yolov5核心代码: anchor匹配策略，compute_loss和build_targets理解

qq_44523137的博客

03-07

5725

yolov5核心代码compute_loss和build_targets理解本文主要讲述yolov5anchor匹配策略-跨网格预测以及损失函数计算的核心过程理解，网络部分相对容易这里不再赘述。 1. yolov5跨网格匹配策略 yolov5最重要的便是跨网格进行预测，从当前网格的上、下、左、右的四个网格中找到离目标中心点最近的两个网格，再加上当前网格共三个网格进行匹配。增大正样本的数量，加快模型收敛。 j, k = ((gxy % 1. < g) & (gxy > 1.)).T

惠普-UX服务器性能监控使用命令

jie1521836的博客

07-17

2749

1,iostat the iostat command reports I/O statistics for each active disk on the system # iostat -t x y x表示间隔的时间，y表示间隔显示的次数这个命令一般用于查看的参数是bps、sps、msps，一般来说msps的值都是1.0 2,ps the ps command displays infor...

AI大模型发展白皮书：预训练大模型的机遇与挑战

如何在保证数据质量的同时，有效获取和管理大规模数据集，是AI大模型研发过程中需要解决的问题之一。在政策层面，政府对AI大模型的发展给予了高度关注。《中国AI大模型发展白皮书》可能涉及国家层面对AI大模型技术...