机器学习5. RNN/LSTM/GRU 反向传播公式推导;encoder-decoder框架/attention机制汇总

研究生期间主要科研的内容,把基本公式推一推。

encoder-decoder机制
  • 核心:处理不定长数据时,先使用一个encoder模型(可以是任何模型,这里以RNN为例),将输入数据压缩成一个固定长度的隐表示ccc。然后使用另一个decoder模型依次展开隐表示ccc得到我们需要的内容。
  • 应用举例:
    • 文本翻译
    • 问答系统
  • 但是这样是有问题的,就是当输入很长的时候,把他们都压缩到ccc中,必然会导致数据特征的丢失。
    在这里插入图片描述
attention机制

引用图片来自Google的《Attention is all you need》

  • 核心思想:注意力机制是一组三元组<Q,K,V>,表示的是Quere(查询)和Key(键)的相似性程度。然后根据相似性的大小,赋予Value(值)的取值。

  • 相似性的计算由很多种,主要有:

    • 点乘:Similarity(Q,K)=Q.∗KSimilarity(Q,K)=Q.*KSimil
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值