Megatron源码阅读1：

ckl_soft

已于 2024-10-12 16:38:18 修改

阅读量256

点赞数 1

文章标签：深度学习人工智能

于 2024-10-12 16:37:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/cklsoft/article/details/142880950

版权

loss_mask的设置

loss_mask[input_tokens == eos_token_id] = 0

假设有一个原始序列: a b c d e f g

input: a b c d e f

output: b c d e f g

假设c是eos token，则上述操作是把output中的d mask掉，即不预测eos之后的token。在随机拼接的情况下，这种token一般没啥含义。如果保留了应该也没啥影响。

SFT时候loss mask设置

SFT时候如果要对input进行mask，则

错误：loss_mask[:seq_len] = sample['loss_mask'][:-1]

正确：loss_mask[:seq_len] = sample['loss_mask'][1:]

a b c d e f g

0 0 1 1 1 1 1 这里表示我们需要预测 c d e f g

input: a b c d e f

0 0 1 1 1 1 表示从第2个位置（下标0开始）开始才预测，即从d开始预测，所以错误

output: b c d e f g

0 1 1 1 1 1

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。