深度学习之Seq_seq网络

本文回顾了机器翻译的历史,从逐字翻译到基于统计学的方法,再到使用循环网络和编码技术的现代方法。详细介绍了Seq2Seq模型的工作原理,包括其存在的问题如信息压缩损失和长度限制,以及如何通过Attention机制和Bucket机制来解决这些问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

知识点

"""
机器翻译:
    历史:
        1、逐字翻译
        2、基于统计学的机器翻译
        3、循环网络和编码
翻译过程: 输入 -- > encoder -->向量  --> decoder -->output
                    (RNN)               (RNN)
seq_seq应用:文本摘要、聊天机器人、机器翻译
seq_seq存在的问题:
    1、压缩损失的信息
    2、长度限制(一般10-20最好)
解决方法:
    Attention机制:高分辨率聚焦再图片的某个特定区域,并以低分辨率感知图像的周围区域的模式
    具体表现为:对encoder层进行加权

    Bucket机制:正常情况要对所有句子进行补全

基础Seq_seq主要包含三个部分:
    1、encoder
    2、隐层状态向量(连接encoder和decoder)
    3、decoder
"""

哎!,还是多看别人博客理解吧

 

转载于:https://www.cnblogs.com/ywjfx/p/11131256.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值