强化学习与天线设计技术的应用与优化
强化学习提升多轮对话连贯性
在对话系统中,平均对话长度是衡量系统性能的一个重要指标。它由对话中有意义的回复数量决定,当系统开始生成枯燥且不连贯的回复时,对话就被认为是无意义的。为了计算平均对话长度,需要确定对话中连贯回复长度的平均值。
为了比较Seq2Seq模型在不同数据集和不同训练轮次下的性能,选取了21个问题,这些问题包括数据集中的句子以及一些随机的通用问题,如“Hello”和“How are you”。分别对两个数据集在25、50、75和100个训练轮次下的平均回复长度进行了评估,并为所有问题设置了参考答案,计算了每个问题的BLEU分数的平均值。
从实验结果来看,随着训练轮次的增加,回复的整体BLEU分数和平均回复长度都有所增加。在使用Cornell数据集训练的模型中,生成的回复更有意义,因为输入句子是以对话形式呈现的。对于多轮回复,Seq2Seq模型的类型-标记比(TTR)略高,但强化学习(RL)模型的平均有意义对话长度有所增加。
| Epoch | Cornell corpus(BLEU score) | Cornell corpus(Avg. response length) | Twitter dataset(BLEU score) | Twitter dataset(Avg. response length) |
|---|---|---|---|---|
| 25 | 0.0432 |
超级会员免费看
订阅专栏 解锁全文
538

被折叠的 条评论
为什么被折叠?



