高质量知识图谱(KG)构建
-
实体与关系的精准定义:使用强约束模式对疾病、症状、药物、医学检查等实体进行精确结构化定义。这种精确的结构化定义有助于提高回答问题的准确性,同时确保实体间关系的严谨性。
-
领域术语与概念注入:利用医学专家整理的权威医学术语和概念知识,通过迭代提取的方式,增强知识图谱中领域术语和概念的覆盖度,减少知识颗粒度差异带来的噪声问题。
逻辑形式引导的推理引擎
-
逻辑形式生成与转换:根据用户的医学问题,生成相应的逻辑形式,并将其转化为可执行的DSL(Domain Specific Language)形式,用于在知识图谱上进行查询。
-
规则触发与答案生成:在解析逻辑形式进行图查询时,触发由医学专家预先编写的规则,这些规则会根据查询结果返回以三元组形式呈现的结论。
语义增强
-
同义词和上位词关系构建:在知识构建和用户问答阶段,利用术语集表达概念的同义词和上位词语义关系,支持基于术语的实体对齐。
-
医学术语对齐:将实体与医学术语进行对齐,以便在用户提问时能够更准确地检索和生成相关信息。
模型能力增强
-
自然语言理解(NLU):通过收集多个公开数据集并进行大规模指令重构,设计多样化的指令合成策略,创建包含超过20,000条不同指令的NLU指令数据集,对基础模型进行监督微调,增强模型在下游任务中的NLU能力。
-
自然语言推理(NLI):基于收集的高质量概念知识库和本体论,构建包含六种不同类型概念推理指令的训练数据集,提升给定基础模型的语义推理能力。
-
自然语言生成(NLG):采用K-Lora和AKGF两种高效的领域定制微调方法,使生成过程更符合场景预期。
检索增强
-
多轮反思机制:引入多轮反思机制,当问题无法通过初始检索结果得到解答时,生成补充问题并进行迭代求解,直到全球记忆中有足够的信息。
-
混合检索策略:结合稀疏检索和密集检索方法,充分利用LLMFriSPG的层次化表示,通过符号图结构引导的事实和文本知识检索,提高检索的准确性和召回率。
应用效果
-
高准确率:在评估集上,KAG支持的E-Health问答应用实现了60.67%的召回率和81.32%的精确率,在特定医学问答场景中,如医疗保政策查询(北京、上海、杭州),准确率达到77.2%,医学科普意图的准确率超过94%,指标解释意图的准确率超过93%。