本文是google团队在2016年kdd上发表的一篇论文,
是对gmail中应用的自动回复功能框架进行了介绍,应用的环境就是在gmail中来了一封邮件,系统会自动推荐3个回复语句供用户选择,来方便回复。
下面是整个框架的流程图:
面临的挑战:1,个性化推荐2,多样化推荐3,处理能力强4,保护用户隐私
对于挑战1, 2
1)加了一项惩罚项使得一些过于简单的,回答的开头类似的response被剔除掉
2)增加不同语义的句子,增加可选多样性;根据语义进行聚类,从不同的类别中选,不过区别于传统的无监督聚类,这里采用半监督聚类的方法,因为对样scale的语料库进行无监督聚类不现实:具体的方式如,首先人为的设置100个类别,每个类别有最常用的几个句子,每个句子有代表性的几个feature,句子和feature构成了一张graph,然后来了一个句子,采用pander算法,对其标类即可。
在生成最后的response set的时候,假设set=3,按照不同intent(cluster)取3个,如果这3个都属于positive的回复,则去掉最后一个positive的回复,换上negative的回复。(文中说再跑一边lstm,来寻找negative的,因为往往negative的回复的score比较低)
对于挑战3
如果不做任何处理,对于一个邮件,要生成回复邮件,需要对语料库的所有句子打分,生成最高的前k个,对于email这个环境而言不可取,
因此,作者将语料库的句子组合成一个trie树,深度为10~30,每次遍历,只