机器翻译以及注意力机制

本文探讨了机器翻译中引入注意力机制的原因,包括计算能力限制和优化算法限制,并介绍了注意力机制的计算流程。文章详细阐述了全局注意力、局部注意力、soft attention和hard attention的不同变体,以及它们在神经网络特别是机器翻译任务中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

注意力机制就是让计算机模拟人类大脑,在看东西的时候,将注意力集中在比较感兴趣的物体上。

1. 引入注意力机制的目的:

1、计算能力的限制:越复杂的模型才能记住更多的信息,但是当前计算能力依然是限制人工神经网络发展的瓶颈
2、优化算法的限制:虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些,
有效缓解模型复杂度和表达能力之间的矛盾;但是,信息“记忆”能力并不高

2. 按照认知神经学中的注意力,可分为两类:

1、聚焦式(focus)注意力: 自上而下的有意识的注意力,主动注意——是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力;
2、显著性(saliency-based)注意力::自下而上的有意识的注意力,被动注意——基于显著性的注意力是由外界刺激驱动的注意,不需要主动干预,也和任务无关;可以将max-pooling和门控(gating)机制来近似地看作是自下而上的基于显著性的注意力机制。
在人工神经网络中,注意力机制一般就特指聚焦式注意力。

3. 注意力机制计算流程

在这里插入图片描述
Attention机制的目的是计算Attention Value,通过给定一个和任务相关的查询Query向量 q,计算与Key的注意力分布并附加在Value上。注意力机制分为三个步骤&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值