6、文本生成中的输入建模与优化策略

文本生成中的输入建模与优化策略

1. 文本生成基础及常见问题

在文本生成领域,简单的编码器 - 解码器方法虽能生成流畅文本,但常出现重复信息、遗漏相关内容或表达输入中不存在信息的问题。为解决这些问题,人们提出了多种机制。

1.1 字符级模型

受神经机器翻译中处理稀有词问题的启发,字符级模型被用于文本生成中处理稀有实体。在这种方法中,输入和输出都被编码为字符串。其优点是数据稀疏性大大降低,因为模型处理的词汇量较小(英语小写后约 50 个符号),结合复制机制时,模型能在上下文需要时将字符映射到自身。然而,其缺点是序列变长,增加了长距离依赖,可能导致性能下降。因此,字符级模型主要用于输入不太长的数据到文本生成任务,如 E2E 挑战中,62 份提交中有 5 份采用字符级处理。在该数据集上,字符级模型表现与基于标记的方法相当或略好,但在 WebNLG 数据上,基于词的模型表现更好。

1.2 覆盖机制

神经文本生成器常重复输入信息,因为它们缺乏指示源文本哪些部分已被覆盖的机制,可能忽略部分输入或反复关注同一部分。为解决此问题,Tu 等人和 See 等人提出了覆盖机制。在每个解码步骤,计算覆盖向量以衡量输入中已被关注的部分。覆盖向量 $c_t$ 定义为到目前为止所有注意力分布的总和:
[c_t = \sum_{t’=0}^{t - 1} \alpha_{t’}]
覆盖向量作为额外输入传递给注意力机制,改变了注意力机制的计算方式:
[e_{t,j} = a(s_{t - 1}, h_j, c_t)]
这样,注意力机制能了解之前的决策总结,减少重复的可能性。此外,损失函数也被修改,加入了一个额外的损失项,用于惩

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值