- 博客(2)
- 收藏
- 关注
原创 1/21待整理
对seq2seq的编码器来说,无论输入的句子有多长,最后都会被encode到同一个维度(也就是只保留最后的hidden state),这就会导致一些信息量的溢出。在decoder block之间流动的还是一个向量表征的句子,到了最后一个block往后,就是一个linear,再是经过softmax得到的logits。Transformer不像是seq2seq天然带有先后的顺序关系,而是并行的,所以token之间的位置关系需要有另外的东西来限制,就是位置编码。学会发声,学会发表自己的观点,这是一种能力。
2024-01-22 01:09:14
892
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人