Bert源码解读

最新推荐文章于 2025-03-15 15:50:02 发布

chikeshi

最新推荐文章于 2025-03-15 15:50:02 发布

阅读量785

点赞数 1

文章标签：自然语言处理

本文链接：https://blog.youkuaiyun.com/chikeshi/article/details/115500543

版权

本文深入探讨Transformer的实现细节，包括Q、K、V的设计，并解析Bert在TensorFlow 2.4.1中的源码实现，涉及预训练数据创建、注意力机制和预训练模型的训练过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Transformer
Bert
transformer_model()
create_pretraining_data.py
run_pretraining.py
- get_masked_lm_output
bert_models.py
- line 227-239: feed through transformer, mask_lm, NSP
nlp/keras_nlp/encoders/bert_encoders
[models/ bert_pretrainer.py](https://github.com/tensorflow/models/tree/master/official/nlp/modeling/models)
- layers/masked_lm.py
- networks/classification.py
model_training_utils.py
- 323-329
questions

Transformer

讲的最好的一篇（我认为）用pytorch一步步实现

他的multihead应该是错的，不应该吧embediing分开，而应该有多个Q，K，V

错误解决方案请看这篇，或者中文版，并且讲述了bert,吧所有head的output拼在一起，并训练 $W_o$ 使其回归到原来的大小
attention的输出是每一个词的embedding，somehow有其他词的attention。每个词是v1*attention_v1 + v2*attention_v2 …

第一层attention的每个词size都是embedding，其余的都是num_attention_heads
* size_per_head
The feed-forward layer is not expecting eight matrices

不完全是，Bert里面就没有进行“压缩”。不一定需要 $W^o$

Q和K长度要一致，V不一定

Bert

在这里插入图片描述

本篇基于tensorflow.2.4.1, 源码在library里面
直接看github上的源码， from Google-research
首先看前两个argument，from_tensor和to_tensor. 可以吧第一个理解为input句子，

from_tensor 和 to_tensor
- batch_size: 多少个句子
- from_seq_length(每个句子多少个单词),
- from_width: 每个单词的长度*head的数量
- 源码其实已经压缩成了2d tensor, 为了方便矩阵相乘（line 823)

Bert只用self-attention, 在833行可以看到

          attention_head = attention_layer(
              from_tensor=layer_input,
              to_tensor=layer_input

两行的input是一样的

$W^Q, W^K, W^V$ 在line 666-687被定义

  query_layer = tf.layers.dense(
      from_tensor_2d,
      num_attention_heads * size_per_head,
      activation=query_act,
      name="query",
      kernel_initializer=create_initializer(initializer_range))
      ...