25、强化学习与天线设计技术的应用与优化

强化学习与天线设计技术的应用与优化

强化学习提升多轮对话连贯性

在对话系统中,平均对话长度是衡量系统性能的一个重要指标。它由对话中有意义的回复数量决定,当系统开始生成枯燥且不连贯的回复时,对话就被认为是无意义的。为了计算平均对话长度,需要确定对话中连贯回复长度的平均值。

为了比较Seq2Seq模型在不同数据集和不同训练轮次下的性能,选取了21个问题,这些问题包括数据集中的句子以及一些随机的通用问题,如“Hello”和“How are you”。分别对两个数据集在25、50、75和100个训练轮次下的平均回复长度进行了评估,并为所有问题设置了参考答案,计算了每个问题的BLEU分数的平均值。

从实验结果来看,随着训练轮次的增加,回复的整体BLEU分数和平均回复长度都有所增加。在使用Cornell数据集训练的模型中,生成的回复更有意义,因为输入句子是以对话形式呈现的。对于多轮回复,Seq2Seq模型的类型-标记比(TTR)略高,但强化学习(RL)模型的平均有意义对话长度有所增加。

Epoch Cornell corpus(BLEU score) Cornell corpus(Avg. response length) Twitter dataset(BLEU score) Twitter dataset(Avg. response length)
25 0.0432
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值