基于总结逻辑形式(SLF)的问答系统实现及预训练语言模型语义扩展
1. SLF 基础组件构建
在构建 SLF 来源的三个组件时,我们借助了语义解析器(Damonte 等人 2017 年和 Damonte 与 Cohen 2018 年的研究成果)、语篇解析器(Surdeanu 等人 2015 年;Joty 等人 2013 年的研究成果)以及句法泛化(Galitsky 等人 2012 年的研究成果)。
2. SLFAMR 评估
为了评估我们的方法对搜索质量的贡献,我们使用了四个数据集:
- Yahoo! Answer(Webscope 2017) :问题 - 答案对的子集,主题广泛,主要问题是包含 10 - 15 个关键词的单句(可能是复合句)。该数据集涵盖多个领域,但领域知识覆盖较浅。
- 从 Fidelity.com 抓取的金融问题(2018) :展示了在具有合理覆盖范围的垂直领域中搜索相关性的提升情况。
- 从 www.2carpros.com 选取的汽车维修对话(CarPros 2018) :包含汽车问题描述和解决建议,这些对从对话的前两个话语中提取。
- SQuAD 数据集 :用于针对像维基百科这样组织良好的来源的事实性问题。
我们选择工业搜索引擎常用的改进版 TF*IDF 搜索作为基线。基于实体的查询通过短语搜索表示,考虑单词之间的距离,停用词和分词设置采用默认值(Ingersoll 等人 2012 年的方法)。
SLF问答系统与BERT语义扩展
超级会员免费看
订阅专栏 解锁全文
950

被折叠的 条评论
为什么被折叠?



