文章总结与翻译
一、文章主要内容
本文聚焦生物医学文档检索中因领域特定词汇和用户查询语义模糊导致的检索效率低问题,提出了一种名为BMQExpander的本体感知查询扩展框架,旨在提升生物医学文档检索的有效性与稳健性。
核心技术流程
BMQExpander包含五个关键阶段,形成完整的查询扩展与检索闭环:
- 领域特定实体识别:通过少样本提示大型语言模型(LLM),从用户查询中提取核心生物医学术语,排除无医学意义的词汇,确保后续扩展的针对性。
- 本体驱动概念链接与定义检索:将提取的术语映射到UMLS(统一医学语言系统)的概念唯一标识符(CUI),并从MeSH、SNOMED CT等权威生物医学词汇表中检索对应概念的结构化定义,保证术语语义的准确性。
- 概念级知识图谱构建:围绕每个CUI构建语义图,筛选出CHD(有子概念)、PAR(有父概念)、SY(同义词)等具有医学意义的关系,剔除冗余关联,形成精简的结构化知识表示。
- 本体引导伪文档生成:将原始查询、序列化的概念定义与知识图谱作为提示输入LLM,生成符合医学事实的伪文档,同时通过“思维链”后缀促进LLM的逐步推理,减少生成错误。
- 加权查询扩展与检索:将原始查询重复指定次数(实验中α=5)后与伪文档拼接,形成最终扩展查询,再使用BM25模型对生物医学文档库进行检索
订阅专栏 解锁全文
614

被折叠的 条评论
为什么被折叠?



