【从零构建大模型】第五章,训练模型

1.概述

本文总结《从零构建LLM》的笔记,加深对GPT的理解,gpt架构的理解

作者写了做个文章在下面公众号(驾驭AI美未来、大模型生产力指南)目的是提升大模型、智能体的理解,提高大家生产力,欢迎关注、点赞。

录了个视频课程,欢迎学习。

【从零构建大模型】 视频课程讲解,一步步带你理解大模型底层原理

2.训练模型

在这里插入图片描述

在这里插入图片描述

2.1 gpt文本生成

原理:预测下一个token 在这里插入图片描述

2.2 损失函数定义

在这里插入图片描述

2.3 计算cross_entropy 的方法

在这里插入图片描述

  • perplexity 的介绍
    A concept related to the cross-entropy loss is the perplexity of an LLM
    The perplexity is simply the exponential of the cross-entropy loss

perplexity = torch.exp(loss)
print(perplexity)

2.4 温度

2.5 topK

2.6 模型参数保存与加载

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值