基于反馈的Query改写：你说过的，我才最懂

芋艿ashes

于 2020-12-30 10:41:00 发布

阅读量1.9k

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u014257192/article/details/111947032

版权

一、前言

本文对之前做过一段时间的Query改写（纠错，本文不严格区分这两种叫法）做一些总结，算法原理可以参考亚马逊的这篇论文：Feedback-Based Self-Learning in Large-Scale Conversational AI Agents。

二、方法

以前做Query纠错的一些通用思路是：基于大规模的线上日志训练一个相对置信的语言模型，基于相似度、编辑距离等方式挖掘一批高频词汇改写对，譬如说对于“伴奏兄弟”-->“半吨兄弟”这么一个改写对，原始ASR识别后的query有可能是：“播放伴奏兄弟的歌”，在经过中控的改写模块时，进行n-gram替换，按照语言模型的打分，发现：

Score(播放伴奏兄弟的歌)> Score(播放半吨兄弟的歌)

并且分数值满足一定的阈值设定，那么可以把改写的query和原始query一起送入下游意图识别模块，看召回情况，再打分。

这种改写方式，有理有据，但相应的短板也非常明显：

高精度，但召回相对欠佳
改写词汇对维护成本高
意图打分模块，策略较重

另外还有一些seq2seq系列的方法，也做过相应的实验，这类改写方法过于不可控，当做玩具试试是可以的，包括也有Paper结合Bert来做的。

那么，有没有方法可以弥补上述经典纠错方法的短板呢？

亚马逊的这篇Paper，提供了一种新的思路，笔者之前也已复现并小幅改进了该篇论文，效果属实惊艳。Paper干的事情，其实就是提出了一种挖掘Query改写对的方法，基于用户和chatbot的历史交互数据，挖掘改写对，并把改写对提供给线上改写模块，进行整句替换，像Alexa、小爱、天猫精灵等，都有着对应的应用场景。

那么，Paper是怎么干的？流程如下：

用户query->dis映射
Session数据构造
Markov离

最低0.47元/天解锁文章

博客等级

码龄11年

119
原创

16
点赞

84
收藏

14
粉丝

关注

私信

热门文章

分类专栏

最新评论

Python批量修改图片分辨率
m0_58388029: 这个保存的文件夹是我们自己创建还是代码自己建哦
隐马尔科夫实现中文分词（Python3实现）
Abro.: 同求训练语料文件！
跨语言评测数据集之XNLI介绍
xxaxtt: TRANSLATE TEST优于TRANSLATE TRAIN的结论有点奇怪。假设训练数据集是英语的，测试数据集是法语的。TRANSLATE TEST是先用英语数据集训练模型，然后测试时将法语翻译为英语，然后给出测试结果。TRANSLATE TRAIN是先将英语数据集翻译为法语数据集进行训练，然后测试时直接输入法语，给出测试结果。直觉上TRANSLATE TRAIN是基于法语训练的，效果应该更好才对啊？
跨语言评测数据集之XNLI介绍
xxaxtt: BiLSTM-max效果好于BiLSTM-last，说明理解语义是需要抓重点的
隐马尔科夫实现中文分词（Python3实现）
"^-^": 求语料库文本文件

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。