20、机器学习第三部分:Transformer与大语言模型

Transformer与大语言模型的实战应用

机器学习第三部分:Transformer与大语言模型

1. 模型结构可视化与检查

在处理大型数据集和模型时,训练过程可能会非常漫长。因此,像模型结构可视化这样的健全性检查就显得尤为重要。如果模型结构不符合预期,那么在训练一个错误的模型上会浪费大量时间。

2. 定义损失函数和指标

对于这个二元分类问题(只有正、负两种结果),我们使用交叉熵函数作为损失函数,具体使用 losses.BinaryCrossEntropy

loss = tf.keras.losses.BinaryCrossEntropy(from_logits=True)
metrics = tf.metrics.BinaryAccuracy()

对于具有多个可能结果的分类应用,如意图识别问题(需要从10种意图中为输入分配一种),则会使用分类交叉熵。

3. 定义优化器和训练轮数

我们使用流行的Adam优化器,并以非常小的学习率(3e - 5)开始,这是BERT推荐的学习率。优化器会在训练过程中动态调整学习率:

epochs = 15
steps_per_epoch = tf.data.experimental.cardinality(train_ds).numpy()
print(steps_per_epoch)
num_train_steps = steps_per_epoch * epochs
# 前10%的线性预热阶段
num_warm
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值