9、自然语言处理模型与硬件加速及并行训练效率优化

躺平摸鱼王

于 2025-08-01 14:50:26 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏： Python分布式机器学习实战文章标签： NLP BERT GPT

本文链接：https://blog.youkuaiyun.com/k8s6orchestrator/article/details/150008421

Python分布式机器学习实战专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理模型与硬件加速及并行训练效率优化

1. 主流NLP模型介绍

在自然语言处理（NLP）领域，有几个重要的模型，包括BERT和GPT。

1.1 BERT模型

BERT模型由Google发明，其基础组件是Transformer。Transformer采用了与ELMo双向训练类似的思想，并通过自注意力机制进一步扩展。自注意力机制在计算输出时，会综合考虑所有输入令牌的信息。例如，计算输出$o_1$时，自注意力机制会定义输入$x_1$与所有输入令牌（如$x_1$、$x_2$、$x_3$）的相关性，具体分两步：
1. 将相关性视为权重矩阵，如$w_1$、$w_2$、$w_3$。
2. 结合相关性矩阵和每个输入生成的值（如$v_1$、$v_2$、$v_3$）来计算输出$o_1$，公式为$o_1 = w_1 * v_1 + w_2 * v_2 + w_3 * v_3$。

与双向RNN不同，双向RNN中一个输入令牌的隐藏状态仅依赖于其前一个或后一个输入状态，而自注意力机制中一个输入令牌的中间表示依赖于所有输入令牌。实际中，Transformer使用多头注意力机制，为每个输入计算多个注意力输出值。BERT借鉴了双向Transformer的概念，将多个双向Transformer层堆叠在一起。