问答系统的历史、架构与发展趋势
1. 文本问答系统(TextQA)
文本问答系统包含多个组件,用于处理用户的自然语言问题并给出答案。其主要组件及流程如下:
- 实体和关系识别(EAT) :识别问题中的命名实体和关系。有多种方法可用于识别EAT,包括基于规则的模型、机器学习分类器、深度学习模型以及这些方法的组合。关系提取则是提取问题句子中命名实体之间的关系。在查询表述任务中,会对问题进行改写,以添加额外信息,提高模型的召回率和精确率。例如,可以从WordNet中提取同义词并应用于此。
- 段落检索 :处理输入问题并扩展问题句子后,检索相关文档以查找相关信息。此组件包括文档检索、段落提取和段落排名步骤。检索到相关文档后,通过提取相关段落缩小搜索空间。最后,根据正确答案的概率对候选段落进行排名。
- 答案处理 :在这个组件中,使用命名实体和词性(POS)标签从段落中检索候选答案句子。使用一组特征对候选答案进行排名。可以使用基于规则或机器学习的分类器进行候选答案排名任务。在答案生成步骤中,从多个句子中生成最终答案。当正确答案不存在于一个句子中,需要多个句子组合来回答问题时,此步骤很有用。最后,验证答案以衡量系统的置信度。
然而,TextQA系统的复杂性降低了其准确性。早期的问答系统在开发初期的性能明显低于使用结构化数据的第一代系统。不过,后来通过简化流程,专注于从有限搜索空间中检索相关句子,而不是从大量文档中提取精确答案,性能得到了提升。
2. 基于结构化数据的开放域系统
将第一代使用结构化数据的问答系统与处理非结构化数据
超级会员免费看
订阅专栏 解锁全文
1181

被折叠的 条评论
为什么被折叠?



