本体构建与查询扩展技术解析
1. 查询扩展与本体查询重构
在信息检索中,查询扩展是一项重要技术,但也存在固有缺陷,如查询漂移。查询漂移通常在查询语义模糊时出现,使查询偏离用户意图。为解决这一问题,在查询扩展时,会选择与查询实体等价的术语进行扩展,而非仅选择相似短语,以构建语义相关性更强的查询。
本体查询重构过程主要分为三个步骤:
1. 识别关键本体实体 :利用输入查询关键词选择最相关的组,再借助所选组关联的领域本体识别用于扩展用户查询的相关实体。本体的选择基于查询短语。
2. 实体扩展 :在基于本体的信息检索中对输入查询进行语义扩展。不将短语概念拆分为单个术语,避免因单术语语义与关联短语概念不同而影响查询效果;同时避免通过超类实体扩展实体,以防宽泛概念降低查询精度和导致查询漂移。系统会根据之前搜索的日志文件为每个识别的本体实体估计权重。
3. 实体聚合 :将每个实体的扩展术语列表合并为一个最终扩展列表。通过将原始术语与扩展术语集进行“或”查询,再与从统一医学语言系统本体中检索的语义类型进行“与”查询,最终确定查询。通常,关键词与其同义词的析取对前10个结果的精度影响不大,而查询关键词的语义类型与扩展查询的合取在大多数情况下可提高前10个搜索结果的精度。
例如,对于查询“symptoms of liver failure due to paracetamol overdose”,搜索引擎会返回大量包含相关和不相关结果的网页。由于大多数医学期刊使用“acetaminophen”或“Tylenol”代替“paracetamol”,系统会解析输入
超级会员免费看
订阅专栏 解锁全文
478

被折叠的 条评论
为什么被折叠?



