[论文笔记] Pai-megatron 细节解读之self.jitter_noise参数（防止过拟合）

心心喵

已于 2024-04-25 16:32:56 修改

阅读量658

点赞数

CC 4.0 BY-SA版权

分类专栏：论文笔记文章标签：深度学习人工智能

于 2024-04-25 16:29:52 首次发布

本文链接：https://blog.youkuaiyun.com/Trance95/article/details/138193076

论文笔记专栏收录该内容

174 篇文章 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

本文详细解析了Pai-megatron中self.jitter_noise参数的作用，该参数通过在训练过程中为隐藏状态添加随机噪声来减轻大模型的过拟合问题。类似的策略包括hidden_dropout和attention_dropout。self.jitter_noise通过在隐藏状态上进行逐元素乘法，引入介于0和1之间的随机值，以此提高模型的泛化能力。

if self.training and self.jitter_noise > 0:
            hidden_states *= torch.empty_like(hidden_states).uniform_(1.0 - self.jitter_noise, 1.0 + self.jitter_noise) 请你讲一下这段代码

对 hidden_states 添加的 self.jitter_noise 抖动，是一种减轻大模型过拟合策略。类似的减轻大模型过拟合策略的方法，还有hidden_dropout、attention_dropout。其中hidden_dropout可能带来的影响更大。

此代码段是MoE（Mixture of Experts）模型中的一个特定部分，用于在训练过程中为隐藏状态引入随机性，这通常被称为抖动（jitter）或噪声。以下是具体行为的解释：

if self.training and self.jitter_noise > 0:

这行检查模型是否处

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

心心喵

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

[论文笔记] PAI-Megatron 1、Qwen continuing pretrain(CT)千问预训练

心宝的博客

01-16

1532

数据情况：预训练数据已经用qwen-tokenizer分过词。所以不需要准备数据。如果需没有数据，也可以从Pai-Megatron上拉数据。克隆Pai-Megatron-Patch源代码并拷贝到工作目录/mnt/workspace/下。注意：EXTRA_VOCAB_SIZE，7B使用85，14B和72B模型使用213。目标：使用qwen基座来做CT。

[论文笔记] PAI-Megatron中qwen和mistral合并到Megtron-LM

心宝的博客

01-12

853

mnt/nas/pretrain/code/Megatron-LM/megatron/tokenizer/__init__.py 或者 tokenizer.py。，更改pretrain_qwen_dlc.py中的输入参数 tokenizer_type: QwenTokenizer。因为在tokenizer中的build_tokenizer中引用了QwenTokenizer。，更改提交脚本中的参数。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2024.04.26
你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。