LLM相关代码笔记

dragonchow123

于 2025-04-10 17:42:40 发布

阅读量580

点赞数 20

CC 4.0 BY-SA版权

文章标签：笔记深度学习机器学习

本文链接：https://blog.youkuaiyun.com/dragonchow123/article/details/131131350

dpo_loss = -F.logsigmoid(self.args.dpo_beta * (pi_logratios - ref_logratios))
kto_loss = 1 - F.sigmoid(self.args.kto_beta * (chosen_logratios - KL))

因为刚开始ref_model=model，所以
- $dpo_loss=−log⁡σ(β∗0)=log2=0.6931dpo\_loss=-\log\sigma(\beta*0)=log2=0.6931$
- $kto_loss=1−σ(beta∗0)=0.5kto\_loss=1-\sigma(beta*0)=0.5$

200万优质内容无限畅学