用于可控问答的总结逻辑形式
1. 引言:在阅读理解取得成功的时代,为何问答需要手动文本准备?
文本问答(Q/A)是自然语言处理(NLP)中一个重要且具有挑战性的问题。近年来,问答研究界的兴趣已从基于逻辑和信息提取转向基于学习的方法,尤其是基于神经网络系统。基于机器学习的问答模型性能的提升在很大程度上归功于可用的各种问答数据集。然而,在现实世界的大量文档语料库中,端到端纯学习问答系统的准确性相当低。依赖统计或深度机器学习技术对搜索结果进行数值排名的问答会话,并不能保证为用户的重要问题提供确切答案。模糊、非确定性搜索系统的用户可能会遇到不相关的答案、建议或推荐,从而远离提供此类答案的业务。
为了保持系统的客户留存率,问答需要以系统的方式提供答案,依靠严格的逻辑规则,而不是针对平均查询进行性能优化的统计系统。在许多非专业、探索性、娱乐性领域,用户可以容忍不能立即得到确切预期答案的情况。但在客户关系管理(CRM)领域,对于与产品可用性、服务优势、推荐和问题解决相关的问题,需要立即提供确切答案。CRM的问答技术在大多数情况下不需要处理数百万份文档,但需要及时、适当地提供高质量内容,以便用户能够据此采取行动并解决问题。因此,CRM需要高端、昂贵的问答系统,比其他问答领域需要更多的人工投入。
近期机器阅读理解(MRC)的趋势将问答的重点转向了不太抽象、更具体的问题,这些问题在语法上更接近答案。MRC所能容忍的问题和答案之间措辞的最大偏差是由word2vec模型涵盖的同义词替换。用于文档问答的神经模型在性能上有了显著提升,但由于它们对文档和问题之间的交互进行了复杂建模,这些模型无法扩展到大型语料库。神经MRC的另一个缺点是它们对对抗性输入很敏感。在CRM应用中,重点是理解客户获取知识的意图,而不
超级会员免费看
订阅专栏 解锁全文
36万+

被折叠的 条评论
为什么被折叠?



