研究生期间主要科研的内容,把基本公式推一推。
encoder-decoder机制
- 核心:处理不定长数据时,先使用一个encoder模型(可以是任何模型,这里以RNN为例),将输入数据压缩成一个固定长度的隐表示ccc。然后使用另一个decoder模型依次展开隐表示ccc得到我们需要的内容。
- 应用举例:
- 文本翻译
- 问答系统
- 但是这样是有问题的,就是当输入很长的时候,把他们都压缩到ccc中,必然会导致数据特征的丢失。
attention机制
引用图片来自Google的《Attention is all you need》
-
核心思想:注意力机制是一组三元组<Q,K,V>,表示的是Quere(查询)和Key(键)的相似性程度。然后根据相似性的大小,赋予Value(值)的取值。
-
相似性的计算由很多种,主要有:
- 点乘:Similarity(Q,K)=Q.∗KSimilarity(Q,K)=Q.*KSimil