- 博客(1)
- 收藏
- 关注
原创 详细通俗讲解Transformer结构以及训练、推理流程
本文介绍了Transformer的详细结构和训练推理流程。Transformer是一种基于自注意力机制的深度学习模型,完全抛弃传统循环结构,通过并行计算高效建模长距离依赖关系。其架构分为编码器和解码器两部分,各由多个重复模块组成。在推理时,模型采用自回归方式逐词生成输出;训练时则直接计算整体输出与标签的交叉熵损失。该架构已成为自然语言处理的主流范式,并扩展至计算机视觉、语音识别等多模态领域
2025-07-14 16:14:19
1471
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅