大模型微调技巧：在 Embeeding 上加入噪音提高指令微调效果

原创于 2024-07-24 11:31:42 发布 · 849 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #ai大模型 #大语言模型 #程序员 #大模型应用 #大模型微调 #embedding

大家好，在去年分享过一篇ACL2022的文章，通过微调前给预训练模型参数增加噪音提高预训练语言模型在下游任务的效果方法。NoisyTune方法在BERT、XLNET、RoBERTa和ELECTRA上均取得不错的效果。

那么通过加入噪音的方式，对现在大型语言模型是否有效呢？

今天就有人分享了一篇文章《NEFTUNE: NOISY EMBEDDINGS IMPROVE INSTRUCTION FINETUNING》，通过在Embedding层上加入噪音提高指令微调的效果，思路与NoisyTune是基本一致的。

在AlpacaEval榜单上，利用GPT4作为评分器，在多个数据上微调Llama2-7B模型，NEFTune方法相较于直接微调方法，均有显著提高。

Paper: https://arxiv.org/pdf/2310.05914.pdf
Github: https://github.com/neelsjain/NEFTune

方法

核心是输入经过Embedding层后，再加入一个均匀分布的噪声，噪声的采样范围为[-, ]之间，其中，为可调节参数，为输入长度，为Embedding层的维度，具体如下：

代码实现也十分简单，核心代码如下：

from torch.nn import functional as F

def NEFTune(model, noise_alpha=5)
    def noised_embed(orig_embed, noise_alpha):
        def new_func(x):
            # during training, we add noise to the embedding
            # during generation, we don't add noise to the embedding
            if model.training:
                embed_init = orig_embed(x)
                dims = torch.tensor(embed_init.size(1) * embed_init.size(2))
                mag_norm = noise_alpha/torch.sqrt(dims)
                return embed_init + torch.zeros_like(embed_init).uniform_(-mag_norm, mag_norm)
            else:
                return orig_embed(x)
        return new_func
    ##### NOTE: this is for a LLaMA model ##### 
    ##### For a different model, you need to change the attribute path to the embedding #####
    model.base_model.model.model.embed_tokens.forward = noised_embed(model.base_model.model.model.embed_tokens, noise_alpha)
return model

结果&分析

Llama2-7B模型在不同数据集上正常微调和NEFTune方法微调后，与Text-Davinci-003的胜率，平均高出15%，提高了模型生成文本的质量。

NEFTune方法，不仅在Llama2-7B模型有效，在OPT-6.7B、Llama1-7B上同样有效，如下图所示。

但有一点注意的是，ChatGPT作为评价器，NEFTune方法效果的提高没有GPT4作为评价器提高的多。

并且从OpenLLM榜单上结果来看，NEFTune方法对模型推理、认知等能力并没有负作用。

在高效调参方法（QLora）中使用NEFTune方法也依然有效。

NEFTune方法通过增加噪音，会是训练集上的Loss变高，验证集上的Loss变低，说明有能力缓解模型过拟合现象。

NEFTune方法会导致输出结果变长，但生成结果的重复率并没有显著提高，主要是提供了额外的细节。

通过实验发现，通过prompt限制等强制模型输出生成更长的结果，会使得评分变高，但都不如NEFTune方法。

并且对比了高斯噪声和均匀噪声，发现虽然高斯噪声会使得输出长度更长，但对结果并没有明显增益。

总结

NEFTune方法可以缓解模型在指令微调阶段的过拟合现象，可以更好的利用预训练阶段的知识内容。但研究目前还存在一些缺陷，例如评价器为GPT4、没有在更大的模型上进行实验。

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。