问答系统概述(待续)

本文介绍了问答系统的主要术语,包括问题类型、答案类型、问句焦点和候选段落等。详细阐述了不同问题类型的挑战,如事实类、定义类问题,并涉及答案抽取和信息检索模型。还提到了相关自然语言处理技术,如分词、命名实体识别和文本聚类,以及问答系统涉及的用户层、处理层和数据层的结构分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问答系统主要术语:问题类型、答案类型、问句焦点、问句主题、候选段落、候选答案。分别介绍如下:

问题类型:对问题的分类,用以产生相应的策略和答案形式。

问题分为:事实类问题,列表类问题,定义类问题,列表类问题难度较大,因为涉及到不同的实体识别,这些实体往往分散在不同的文本段落。定义类问题难度最大,识别出用户提出的概念,然后再组织语言给出答案。另外还有根据语言学分为是非类问题、关系型问题、最型问题(比如最大,最好,最高)、观点类问题(带有主观性的评价)、原因结果问题(比如,为什么科学技术是第一生产力?)

答案类型:问句对应的目标的类型,由问题模式直接决定,比如问who is  the  ....?返回的答案类型就是一个人名。答案类型受命名实体识别技术范畴的影响,比如人名、地名、组织机构、时间、货币、体积、重量、尺寸、面积、颜色等

问句焦点:问题中的主题是对象,是宿主,宿主的属性则是焦点。

候选段落:由搜索引擎响应用户产生的文本片段,给每个段落相应的权重。找到合适的阈值。不一定越多越好。然后将用户问句与候选段落进行匹配,然后进行答案抽取,返回答案。

答案:涉及到信息抽取、实体识别。

问答系统结构:


     

问答系统相关的技术:网络相关的,有网络爬虫、谷歌API、百度api的接口获得并调用其内部搜索的结果、网页去重、网页正文内容提取,数据库索引(开源数据库MYSQL)。

智能化信息检索模型研究:现有的信息检索模型有:布尔模型、向量空间模型、概率模型。概率模型可以看做是N-gram模型在信息检索领域的应用。

基于结构映射理论的新型信息检索模型-------系统相似性模型:向量空间的本源理论模型;通用性理论模型。来自由认知科学。

跟问答系统相关的自然语言处理技术:分词与词性标注,命名实体识别,文本摘要、文本分类、

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值