6、文本生成中的输入建模与优化策略

grape

于 2025-08-21 12:44:38 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习重塑文本生成文章标签：文本生成输入建模优化策略

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/grape/article/details/151032768

深度学习重塑文本生成专栏收录该内容

16 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本生成中的输入建模与优化策略

1. 文本生成基础及常见问题

在文本生成领域，简单的编码器 - 解码器方法虽能生成流畅文本，但常出现重复信息、遗漏相关内容或表达输入中不存在信息的问题。为解决这些问题，人们提出了多种机制。

1.1 字符级模型

受神经机器翻译中处理稀有词问题的启发，字符级模型被用于文本生成中处理稀有实体。在这种方法中，输入和输出都被编码为字符串。其优点是数据稀疏性大大降低，因为模型处理的词汇量较小（英语小写后约 50 个符号），结合复制机制时，模型能在上下文需要时将字符映射到自身。然而，其缺点是序列变长，增加了长距离依赖，可能导致性能下降。因此，字符级模型主要用于输入不太长的数据到文本生成任务，如 E2E 挑战中，62 份提交中有 5 份采用字符级处理。在该数据集上，字符级模型表现与基于标记的方法相当或略好，但在 WebNLG 数据上，基于词的模型表现更好。

1.2 覆盖机制

神经文本生成器常重复输入信息，因为它们缺乏指示源文本哪些部分已被覆盖的机制，可能忽略部分输入或反复关注同一部分。为解决此问题，Tu 等人和 See 等人提出了覆盖机制。在每个解码步骤，计算覆盖向量以衡量输入中已被关注的部分。覆盖向量 $c_t$ 定义为到目前为止所有注意力分布的总和：
[c_t = \sum_{t’=0}^{t - 1} \alpha_{t’}]
覆盖向量作为额外输入传递给注意力机制，改变了注意力机制的计算方式：
[e_{t,j} = a(s_{t - 1}, h_j, c_t)]
这样，注意力机制能了解之前的决策总结，减少重复的可能性。此外，损失函数也被修改，加入了一个额外的损失项，用于惩

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。