PeMeBench:中文儿科医疗问答基准测试方法

PeMeBench:中文儿科医疗问答基准测试方法

张芊1,2,   陈攀峰1,2,冯林坤1,2,刘淑钰1,2, 马丹1,2, 陈梅1,2, 李晖1,2

1. 公共大数据国家重点实验室,贵州  贵阳  550000;

2. 贵州大学计算机科学与技术学院,贵州  贵阳  550000

摘要大语言模型在医疗领域显现出巨大的应用潜力,如何评估其在医疗领域中的性能成为挑战。现有医疗评测基准测试多为选择题形式,难以全面和精准地评估模型在儿科医疗场景中的性能。为此,提出首个中文儿科医疗问答基准测试方法——PeMeBench。该方法基于双视角评估维度,参考来自10个儿科疾病系统的诊疗规范类书籍,将儿科医疗问答任务细分为疾病知识、治疗方案、用药剂量、疾病预防和药理作用5个儿科医疗问答子任务,构建超1万个开放式的问答题目,引入一种融合实体召回和检测语句幻觉的多粒度自动化评估方案,旨在对大语言模型在儿科基础医疗领域中的性能进行全面、准确的评估,深入剖析其潜在局限性,为提升医疗服务的智能化水平奠定坚实的基础。

关键词儿科医疗; 基准测试; 大语言模型; 问答

67345db3c2e1acd812d9f2734f7e3848.jpeg

论文引用格式:

张芊, 陈攀峰, 冯林坤, 等. PeMeBench:中文儿科医疗问答基准测试方法[J]. 大数据, 2024,10(5):28-44.

ZHANG Qi, CHEN P F, FENG L K, et al. PeMeBench: Chinese pediatric medical Q&A benchmark testing method[J]. Big Data Research, 2024,10(5):28-44. 

2c714de8301dc11e3ee63c398860346c.jpeg

0 引言

大语言模型(large language model,LLM)的蓬勃兴起推动了自然语言处理范式的变革。其在文学创作、机器翻译、问答等多个任务上的优异表现,促使研究者将LLM应用到医疗领域,以期解决医疗实践中遇到的各种复杂问题。

随着医疗领域大模型的不断发展,如何客观、准确地评估模型在医疗任务上的性能具有一定的挑战性。由于医疗领域的特殊性,通用LLM基准测试方法的数据集中与医疗相关的评测数据往往非常少,因此使用通用的LLM基准测试方法无法较准确地衡量LLM解决医疗问题的能力。

一些针对医疗领域的基准测试方法通常以选择题的方式来评估LLM解决医疗领域各类问题的能力。但这种方式往往存在一定的局限性,假设LLM无法理解某道题目的真正含义,它仍然可以随机选择一个选项作为答案,但通常只有20%~25%的正确率,人们无法判断出LLM是否真正掌握了某个知识,因此使用选择题的方式并不能精准地评估LLM在医疗领域的能力。部分开放式医疗问答数据集源于真实的医患对话,但这些数据集中疾病类型的数据分布呈现出高度的不均衡性,某些疾病类型的样本数量远多于其他类型。另外医患对话中的口语化表达会影响数据集的医学专业性,无法深层次评估LLM的诊疗能力。现有的医疗基准测试方法并未根据儿科医疗场景进行明确的区分,无法详尽地评估LLM对不同儿科疾病的了解和处理能力。对于开放式问答来说,大模型生成的幻觉问题往往是阻碍医疗大模型落地的原因之一。然而,这些基准测试方式并未关注大模型生成的幻觉问题。

为了解决上述问题,本文提出了一个中文儿科医疗问答基准测试方法——PeMeBench,以弥补儿科医疗领域LLM基准测试方法的不足。该基准测试方法的数据来自《儿科疾病诊疗规范》丛书,涵盖了10个儿科科室的589种疾病。PeMeBench基于此构建了专业且全面的开放式问答数据集,从科室导向和任务驱动两个维度进行评估,引入融合实体召回和检测语句幻觉的多粒度自动化评估方案,进一步精细地评估医疗LLM在各维度的诊疗分析能力,为模型后续的优化指明方向。

本文的主要贡献如下。

· 基于儿科疾病诊疗规范书籍构建儿科医疗问答数据集,从科室导向和任务驱动两个维度全面评估医疗LLM各方面的能力。

· 引入实体召回率和语句幻觉率两个新指标,同时结合传统的语义相似度指标,设计了一种新的自动化评估策略。

· 在PeMeBench上对多个LLM进行评测,结果表明,现有LLM在儿科医疗问答领域的能力有很大的提升空间,PeMeBench为评估LLM对医疗基础知识的理解和应用能力提供了新的测试方法。

1 相关工作

1.1 医疗LLM

为了更好地解决医疗领域的问题,当前众多研究通过微调改进LLM,以应对医疗领域的特定挑战。很多研究倾向于在规模较小的基座LLM(参数数量为6 GB、7 GB或13 GB)上进行微调。DoctorGLM、ChatGLM-Med、BianQue基于ChatGLM-6B进行微调。ChatDoctor、ZhongJing基于LLaMA-7B进行微调,PMC_LLaMA(13 GB)通过整合大量医学学术论文和教科书的内容构建医学知识数据集,并在LLaMA模型上进行微调。基于Baichuan-7B的孙思邈医学LLM致力于提供安全、可靠、普惠的中文医疗LLM。基于BLOOMZ-7B的明医(MING)能够执行医疗问答和智能问诊任务。QiZhenGPT、BenTsao是基于多个基座LLM微调得到的医疗大模型集。这些医疗LLM通常基于LoRA这一高效参数微调方法(parameter-efficient fine-tuning,PEFT)进行微调,能够在资源消耗较少的情况下使LLM学习到更多的领域知识。

1.2 LLM的通用基准测试方法

近年来,随着自然语言理解领域的迅速发展,一系列通用的中文问答基准测试方法相继出现。为了评估模型的医疗能力,早期的模型通常将这类通用基准测试方法作为评估工具,以考察LLM在医疗相关任务上的性能。CMMLU(Chinese multi-modal learning for understanding)是一个包括社会科学、人文科学等方面的综合性中文基准测试方法,用于评估CMMLU在中文语言和文化背景下的高级知识推理能力。C-EVAL涵盖了4个难度水平的多项选择题,旨在分析基础模型的重要优缺点,从而促进LLM的发展。这些通用基准测试方法覆盖的学科范围较广,但在医疗方面的内容却相对缺乏,因此这些通用基准测试方法并不能全面地评估模型在医疗任务上的表现。

1.3 医疗LLM的基准测试方法

为了应对这一挑战,研究人员提出了一些医疗领域的LLM基准测试方法。MedMCQA是一个英文医疗基准测试方法,其收集美国医学考试的题目来评估模型的医疗能力。为了填补中文医疗基准测试方法的空白,MedBench整理了大量中文医学考试的题目和真实临床案例来构建医疗评测基准测试方法。CBLUE进一步将医疗任务细分为命名实体识别、信息提取、临床诊断标准化、短文分类、问题回答、意图分类、查询词-页面标题相关性、查询词-查询词相关性8个子任务,从而实现对LLM在医疗领域中各方面能力的评估。然而,对于实际临床诊疗中最重要的疾病知识、用药剂量、药理作用、治疗方案和疾病预防等能力,以上基准测试方法均未进行更细致的区分。考虑到这一问题,PeMeBench采用任务驱动的评估策略评估LLM在不同医疗子任务上的能力。

2 PeMeBench

为了精准地评估通用LLM在儿科医疗任务上的问答能力,笔者基于权威的儿科疾病诊疗规范,构建了PeMeBench,该方法主要包括数据集构造方法、根据数据集构造方法获得的数据集、评估维度和评估方法4个部分。

2.1 数据集构造方法

本文设计了一套精细化的数据处理流程和问答对生成方案,旨在获得高质量的儿科医疗问答基准测试方法数据集。

首先,参考儿科诊疗规范专业书籍,按照儿科疾病种类、诊疗技术手段、常用量表类型、常用药物等分类,对相应的文本内容和关键要素进行提取。其次,构造专业的提示模板,引导LLM基于儿科医疗文本内容生成一系列与儿科医疗紧密相关的问题和答案,提示模板中要求LLM生成的内容必须源于给定文本。为了防止LLM生成的问题过于单一,PeMeBench的数据集构造方法分为两类:零样本提示方法仅调用一次LLM,使其同时生成问题和答案;少样本提示方法则构造出多样化的提问形式。利用LLM构造问答对使用的零样本、少样本提示模板如图1、图2所示。

2a172aedb6181ed4aea90fc68174ea98.png图1  利用LLM构造问答对使用的零样本提示模板

10ef7deddf396e9a46ef2c1ab4f8d390.png图2  利用LLM构造问答对使用的少样本提示模板

少样本提示方法的具体步骤如下。

(1)构造种子数据

经过初步的数据处理之后,从每个科室中挑选出一份包含疾病概述、疾病诊断、疾病治疗与疾病预防等内容的层次结构清晰的文本。手动构造相应的问题,依靠LLM接口得到该问题的回答并进行核验。这些提问将作为自动化构建数据集的种子数据。

(2)设计提问逻辑

收集到种子数据后,利用少样本提示方法,随机从种子数据中挑出3个问题作为样例让LLM构造问答对。规定:对于疾病概述和病因的内容,使用考察定义类提示模板;对于疾病诊断、疾病治疗和疾病预防的内容,使用询问解决方案类和询问原因类提示模板。

(3)生成问题回答

获取到问题之后,将问题与相关的儿科医疗文本再次送入LLM,从而获取问题相应的回答。

结合两种提示模板得到的问答对对知识的覆盖更加全面。最后对用于LLM能力评测的问题和答案进行严格的人工审查,删除低质量问答对。主要的筛选原则如下。

· 删掉与儿科不相关的问题。

· 剔除指代不明确的问题。

· 核对问题对应的回答是否与文本内容相符。

2.2 数据集

利用GLM-4大模型的API,依靠上述数据集构造方法得到13 113条问答对,经过严格的人工审查之后保留了12 068条数据,从而形成了PeMeBench数据集。

2.2.1 数据分布

本基准测试方法的数据集涵盖了儿科肾脏系统疾病、儿科急诊与危重症、儿科感染性疾病、儿科血液系统疾病、儿科心血管系统疾病、儿科免疫系统疾病、儿科呼吸系统疾病、儿科内分泌与代谢性疾病、儿童保健与发育行为、新生儿疾病共10类儿科疾病以及这些疾病涉及的儿科诊疗技术和临床常用量表的内容。该数据集包含589种儿科疾病、236种儿科诊疗技术、56种儿科常见药物和70种儿科常用量表。图3详细展示了PeMeBench数据集中不同细分类别的问答对数量及占比。

52f4c9802ddc19667c96383ca38b4c2b.png图3  PeMeBench数据集中不同细分类别的问答对数量及占比

PeMeBench数据集在保证数据集质量的同时囊括了大部分的儿科常见疾病与罕见病知识,表1为PeMeBench数据集的统计信息,其中Q表示数据集中的问题,A表示对应的问答。各科室的样本长度基本一致,回答可以是精练的一句话,也可以是复杂的解释和分析。

f71e74ca06179aba22f1a5326a7e8f37.png

PeMeBench与其他医疗基准测试方法的数据集的对比见表2。由表2可以看出,选择题类型的数据集中儿科相关的题目较少,Huatuo-26M数据集虽然有足够数量的儿科相关问答对,但其数据来源于网络在线医患对话,很少涉及儿科疑难杂症。而PeMeBench中的数据集聚焦于儿科医疗问答领域,在规模与品质上均展现出卓越性,为评估LLM在儿科医疗相关问答任务中的效能提供了坚实的保障。

cdd9d35ab00606311a0d2615afcc583b.png

2.2.2 数据特点

(1)语言专业化

儿科医疗领域存在大量生活中不常见的医疗术语和专业表述,日常的口语化表达很难准确无误地传达医疗信息。一些医疗问答基准测试方法侧重于通过医患沟通中较口语化的问题和答案来评估LLM的性能,容易忽视医疗服务沟通表达过程中的专业性。这类基准测试方法的数据大多源于在线问诊平台,由于医患之间口语化表达存在不精准的因素,以及提供在线问诊服务的医生的真实医疗水平存在不确定性,基准测试方法中医疗问答内容的专业度和可信度可能会受到一定程度的影响。构造PeMeBench的数据集时,笔者严格参照书中表述及标准,这种做法很大程度上保证了数据集的准确性和专业性。

(2)问题多样化

PeMeBench的数据集包含一系列多样化的提问方式,这些提问方式既考虑了儿科疾病的多样性,还兼顾了语言理解的复杂性,使数据集的表述能够符合儿科领域的语言风格。其中,询问原因类问题用于探究LLM对儿科疾病发生机制的理解程度,询问解决方案类问题旨在评估LLM治疗儿科疾病的水平,考察定义类问题则是为了检验LLM对儿科基础知识和专业术语的掌握程度。这些提问方式能够全面考察LLM在儿科医疗领域的综合性能。3种类型的问答示例如图4所示。

5afdb7cf15c5264f0a76002fb98eee89.png图4  3种类型的问答示例

2.3 评估维度

PeMeBench旨在全面评估不同维度下LLM对儿科医疗知识的掌握能力,因此笔者提出基于科室导向和任务驱动的双视角评估维度,从专业细分与实践需求两个层面,对LLM的医疗问答能力进行全方位、深层次的评估。科室导向的评估,能够精准捕捉模型在不同儿科领域(如新生儿科、小儿呼吸科等)的专业知识掌握情况。任务驱动的方法则进一步模拟真实医疗场景中的具体任务(如治疗方案、用药剂量等),评估模型在解决实际问题时的表现与效能。

2.3.1 基于科室导向的评估维度

医学的目的是预防和治疗疾病,对于儿科医疗领域而言,每一类儿科疾病都有相应的疾病分析、诊断与治疗流程,将各种儿科疾病归类至各个科室,能够显著提高疾病管理与治愈的效率。受此启发,基于科室导向的评估维度的核心目标是深入挖掘并评估LLM在儿科各子领域知识掌握方面的深度与广度,不仅仅是衡量简单的儿科医疗问诊能力。对不同科室疾病进行详细考察,能够精准识别LLM在特定疾病领域内的专业知识短板,为儿科医疗大模型指明了后续的优化方向。

具体将儿科疾病归为10个科室类别,每个类别的数据包含该科室下某种疾病的相关问题。在对LLM进行评估时,为LLM精心设定角色(如告诉模型它是一个××领域的专家),引导LLM基于某科室领域专家的视角回答问题。以下是一个聚焦于儿科肾脏系统疾病的评估样例。

提示词:假设你是一位能力出众的儿科医生,你擅长诊断与治疗各种肾脏系统疾病,请你基于你的专业能力回答下面关于肾脏系统疾病的问题。

问题:如何治疗肾性贫血。

2.3.2 基于任务驱动的评估维度

现有医疗基准测试方法往往只从宏观角度划分医疗场景,如医疗知识问答、复杂医疗推理等,这极大地限制了人们从更加精细的维度评估LLM应对不同医疗任务的能力。因此,笔者通过分析儿科医疗领域的特点,创新性地对任务进行细分,将儿科医疗问答任务细化为疾病知识、治疗方案、用药剂量、疾病预防和药理作用5类医疗任务。其中,疾病知识类任务旨在评估LLM对基础疾病知识和概念的了解,治疗方案类任务用于评估LLM在不同问诊场景下是否能给出合理的治疗方案,疾病预防类任务用于评估LLM是否了解疾病风险的防范。由于诊疗过程中的用药剂量需要考虑病情、治疗对象等方面因素综合确定,因此特别设计了用药剂量类任务和药理作用类任务,用于精准评估医疗LLM作为一名“医生”的专业度和可靠度。

通过各个细分任务可以更精准地定位模型在诊治过程中的哪些环节表现出色,以及在哪些环节存在不足,从而为后续针对性地优化模型结构和提升模型性能提供精细化的数据洞察。

2.4 评估方法

现有的基准测试方法通常使用自然语言处理中的BLEU(bilingual evaluation understudy)和ROUGE(recall-oriented understudy for gisting evaluation)来评估大语言模型的回答与真实回答之间的相似度。ROUGE和BLEU是生成式问答中被广泛使用的两类指标,通过比较生成文本与参考文本之间n-gram的重叠度来捕捉文本之间的相似度,从而支持不同粒度下的文本评估。然而,这些基于文本相似性的指标忽略了一个重要的问题,即LLM生成的幻觉问题。在某些情况下,模型的回答与真实回答之间有较高的语义相似性,但是模型本身的能力有限,导致它的回答不准确或者不可靠。因此,笔者引入了一种自动化的多粒度评估策略,将实体级评估策略与句子级评估策略相结合,能够更加全面地评估大模型在儿科医疗领域的能力。笔者加入了两类指标,分别是实体召回率和语句幻觉率。整个流程使用GLM4大模型作为一个中立的评估者,通过调用API来获得评估结果。

对于实体召回率,基于提示词获取答案中的关键实体,然后通过代码计算出模型回答的实体召回率。对于语句幻觉率,直接让GLM4判断对应的模型回答和真实答案之间是否存在对立的内容,以此判定该回答是否存在幻觉。在获取到GLM4给出的判定后,人工核实修改了实体抽取的结果,以确保评估的可靠性。利用GLM4大模型提取回答的实体召回率并判断是否为幻觉答案的提示词,如图5所示。

d5848867aae71f79f9162c2b9a4ea7e8.png图5  利用GLM4模型提取实体并判断是否为幻觉答案的提示词

(1)BLEU

BLEU是一种评估自动文摘或机器翻译质量的指标,用于衡量模型回答的准确性以及句子的流畅性。BLEU的计算式如下。

3fcb68e59b9d6d6a5f46f9b50c9478cb.png

其中,Candidates表示模型生成答案,c表示给定的Candidates中出现在reference(标准回答)中的n-gramg词语的个数,c'表示给定的Candidates中所有的n-gramg词语的个数,Countclip表示在reference中某一个n-gramg词语的个数,分子表示标准答案中Candidates的n-gram个数,分母为Candidates中的所有n-gram个数。

(2)ROUGE

ROUGE同样是用于评估自动文摘或机器翻译质量的评估指标,通常用来衡量LLM在自然语言生成任务上的性能。ROUGE-1、ROUGE-2、ROUGE-L分别基于1-gram、2-gram和最长公共子序列L计算真实值与预测值之间的相似度。由于生成式问答的开放性,笔者着重关注ROUGE指标中的召回率(用R表示),并将其简写为R-1、R-2、R-L。

(3)实体召回率(Recallentity

实体召回率指的是模型回答中包括了多少个真实答案中的实体。具体来说,首先利用GLM4抽取出真实回答中的关键实体,然后统计模型的回答中出现了多少个关键实体,从而计算出句子中实体的召回率。

(4)语句幻觉率(Hallsentence

笔者将评测任务看作一个分类任务。当模型回答与真实回答的内容表述一致,则认为回答是准确的;当表述不一致时,则认为该回答是存在幻觉的。它的计算式如下。

04dcc101729e30e09fe0df1483018431.png

其中,Stotal表示所有的样本,Phallucination表示GLM4判定为存在幻觉的样本。100-Hallsentence表示回答未出现幻觉部分的分值。

最后,计算4个语义相似度指标、Recallentity、100-Hallsentence的平均值作为模型回答的最终分数。

d36dfc4ea4b074488602ee37a685638c.png

3 PeMeBench效能评估

在多个开源LLM和闭源商用LLM上测试PeMeBench,以评估现有LLM在儿科医疗任务上的能力。

3.1 实验设置

针对不同维度的实验,采用不同的提示词引导待测模型进行回答。对于基于科室导向的评估维度,使用角色扮演的提示词,引导待测模型作为一位专业的儿科医生进行回答。对于基于任务驱动的评估维度,则为模型设定不同的医疗场景提示词,引导模型基于该场景给出更合理的回答。

3.1.1 模型选择

选取了一系列公开的具有代表性的中文通用LLM和医疗LLM进行评测,具体的LLM如下。

· 开源通用LLM:Baichuan2- 7B-Chat、Baichuan2-13B-Chat、Qwen-7B-Chat、Qwen-14B-Chat、InternLM2-7B-Chat、InternLM2-20B-Chat。

· 开源医疗LLM:BianQue2(7 GB)。

· 闭源LLM:文心一言ERNIE- Bot4.0、星火认知Spark3.5 Max、ChatGPT-3.5-turbo。

对于开源通用LLM和开源医疗LLM,利用本地一台包含8张NVIDIA A6000 GPU的服务器进行测试,对于闭源LLM,调用API进行访问。

3.1.2 数据集选择

选取CMexam、MedQA以及Huatuo-26M医疗问答数据集和PeMeBench进行比较。其中CMexam和MedQA数据形式为选择题,Huatuo-26M以问答题的形式呈现。利用正则表达式从CMexam、MedQA以及Huatuo-26M的测试集中挑选出关于儿科医疗的问题,以此构建一个专门的评估子集,从而确保评估结果的准确性和公平性。

3.1.3 评估指标选择

(1)准确率(accuracy)

选择题存在唯一确定的正确答案,因此笔者采用准确率(用ACC表示)作为选择题的评估指标,其计算方法为ACC=模型回答正确的题目数量/所有题目数量。

(2)语义相似度指标BLEU和ROUGE

BLEU和ROUGE是两类常用的基于语义相似度的生成式问答评估指标,但是仅靠这两类指标无法衡量模型是否存在幻觉。

(3)实体召回率Recallentity和幻觉率Hallsentence

本文提出了两种新的指标,分别从实体和语句层面来衡量模型回答的性能。第2.4节详细介绍了这些评估指标。

3.2 结果及分析

3.2.1 引入语句幻觉率指标的必要性

各模型在PeMeBench上的结果见表3。PeMeBench在数据形式的丰富性、知识覆盖的深度以及实际应用的有效性方面,均展现出显著的优势。

47498b582a6551530cd2154405bfafb8.png

由表3可知,规模较大的通用模型在回答儿科问题时展现出较高的准确性,这一发现与先前的研究结论相契合。整体上来看,越高的实体召回率对应的语句幻觉率相对越低。在诸多测试模型中,ChatGPT-3.5-turbo在语义相似度相关的指标BLEU、R-1、R-2和R-L上均高于其他模型,但是其表现出来的幻觉问题非常严重,因此ChatGPT-3.5的最终得分并不突出。而闭源模型Spark3.5 Max、ERNIE-Bot4.0虽然在语义相似度指标上的分数不太理想,但是它们有较高的实体召回率和较低的语句幻觉率,因此它们的总体得分位于前二。

BianQue2(7 GB)模型的综合得分是最后一名,笔者发现该模型的幻觉问题非常严重。尽管通过医疗领域知识微调后的LLM能够学习到更多医学方面的表达,但是带来了更多的幻觉问题。模型容易生成很多看似合理但实际上并不正确的回答。由此可见引入语句幻觉率指标是有效的。

3.2.2 模型在其他数据集上的性能

各模型在CMexam、MedQA以及Huatuo-26M上的得分见表4。由于选择题和开放式问答的评分标准不同,因此CMexam、MedQA与Huatuo-26M的得分相差较大。

35bf88ae20a26ef25854c9384394e16d.png

通过表4的数据可知,各模型在选择题类型的基准测试方法上普遍表现得较理想,多数得分已接近及格线(60分)。然而医疗模型BianQue却不能很好地遵循指令,总是生成与答案选项无关的内容,因此在CMexam和MedQA上的表现很差。

尽管ChatGPT-3.5-turbo在CMexam、MedQA上有较好的指令遵循能力,但它依然反馈给用户一些看似合理但并不正确的答案选项。Spark3.5 Max并不能很好地理解和遵循指令,在测试其在MedQA上的性能时,尽管利用提示模板规定回复格式,Spark3.5 Max依旧会生成许多与要求不符的内容。使用简单的正则表达式计算Spark3.5 Max原始回答的得分,仅有49.19。为了挖掘Spark3.5 Max在MedQA上的真实水平,人工对它生成的回答进行了筛选与核实,发现得分达到了77.42。这一结果也和上述结论相印证,Spark3.5 Max的指令遵循能力较差,但是依然拥有大量的医疗知识储备。这种差距体现了利用选择题评估LLM性能的局限性。利用选择题考察LLM能力往往具有随机性,并不能有力地说明LLM在儿科医疗方面的能力。

在开放性医疗问答中,LLM的表现不尽如人意,所有模型在Huatuo-26M数据集上的得分均低于PeMeBench,且Baichuan系列和Qwen系列LLM的得分不具有区分性。Huatuo-26M的ovovr数据过于口语化,模型无法精准捕捉提问中所需要的儿科医疗知识,从而影响了回答的准确性。因此在构造数据集时除了需要确保答案的准确性,还应该关注问题的有效性和精准性。

3.2.3 PeMeBench在基于科室导向的评估维度中不同模型的性能

分别抽取儿科各科室的问题对LLM进行测试,将总体得分绘制成雷达图,以分析LLM对不同儿科科室知识的掌握能力,模型对不同儿科类别知识的掌握情况如图6所示。模型在对各类儿科医疗知识的掌握程度上表现出了显著的差异。具体来说,大部分模型在儿科内分泌与代谢性疾病上的表现较好,而在儿科肾脏系统疾病上的表现普遍较差。

8522663df9998845ab360ec8d6c71e8f.png图6  模型对不同儿科类别知识的掌握情况

不同模型在不同领域的知识掌握程度存在差异,细分疾病类别能更准确地评估模型的能力,并为模型训练提供更有针对性的指导。在模型的后续训练过程中,需要充分考虑各类儿科医疗知识的特点和分布,确保模型能够全面而深入地掌握相关知识。

3.2.4 PeMeBench 任务驱动评估维度中不同模型的性能

笔者从疾病知识、治疗方案、用药剂量、疾病预防和药理作用5个医疗任务中随机抽取了部分问题对多个LLM进行测试,根据式(3)计算Stotal,以分析LLM在各类儿科医疗场景中的性能,测试结果见表5。从表5可以看出,LLM对不同细分任务的掌握程度存在差异,无论是开源LLM还是闭源LLM,这些模型更擅长回答用药剂量相关的知识,在这类问题上得到了较高的分数,尤其是ChatGPT-3.5-turbo在用药剂量子任务上的得分远超过其他子任务。而所有模型在治疗方案和疾病预防任务上的表现较均衡,这可能是因为同种疾病存在多种治疗和预防对策等。

aae157f09205463bd2afb3da44fd0372.png

3.2.5 案例分析

选取一个具有代表性的问题,收集几个模型的回答并给出针对性的分析,不同模型生成的答案对比如图7所示。其中划线部分文字说明模型生成的内容中存在明显错误的信息,加粗部分文字为与正确答案相关的内容。显然,这些模型的回答在内容准确性和完整性方面存在显著差异。每个模型均存在一定的幻觉问题,容易生成一些与正确答案不符的内容,其中InternLM2系列模型的幻觉问题尤其严重,相对而言,Baichuan2系列模型的幻觉问题较轻。尽管这些模型生成的内容都较丰富,但它们无法涵盖参考答案提及的症状等信息。这也是这些模型在PeMeBench上的分数偏低的重要原因之一。

14f262761265c8a532433672bb5369c9.png图7  不同模型生成的答案对比

4 结束语

本文提出了中文儿科医疗问答基准测试方法——PeMeBench。本文基于科室导向和任务驱动双视角的评估维度,设计了一种引入融合实体召回和检测语句幻觉的多粒度自动化评估方案,并在多个LLM上进行评测。笔者发现,现有的LLM能够回答儿科医疗方面的常见基本问题,但回答的准确性仍然有待提高,且很多LLM存在一定程度的幻觉,尤其是被微调的医疗模型。然而,使用大语言模型完成自动化评估的质量取决于大语言模型自身的能力与知识储备,笔者认为,未来仍需进一步构建完善的医疗LLM性能评价体系,可通过引入更多元的评价指标、构建更全面的评测数据集、研究更先进的评估方法等工作,推动LLM在儿科医疗问答领域的发展,提升医疗服务的质量和效率,从而更好地为儿童的健康成长保驾护航。

作者简介

张芊(2000- ),女,贵州大学计算机科学与技术学院硕士生,主要研究方向为医疗大模型、智能问答。

陈攀峰(1982- ),男,贵州大学校聘副教授,主要研究方向为大数据的融合与集成。

冯林坤(2001- ),男,贵州大学计算机科学与技术学院硕士生,主要研究方向为LLM在医学领域的探索。

刘淑钰(2000- ),女,贵州大学计算机科学与技术学院硕士生,主要研究方向为医疗人工智能。

马丹(1977- ),女,贵州大学计算机科学与技术学院副教授,主要研究方向为数据分析、大数据处理。

陈梅(1964- ),女,贵州大学计算机科学与技术学院教授,主要研究方向为大数据管理与分析、人工智能系统 、数 据 库 技 术 。

李晖(1982- ),男 ,博 士 ,贵 州 大 学 计 算 机 科 学 与 技 术 学 院 教 授 、博 士 生 导 师 ,主 要 研 究 方 向 为 大 数 据 管 理 与 分析 、人 工 智 能 系 统 、数 据 库 技 术 。

联系我们:

Tel:010-53879208

       010-53859533

E-mail:bdr@bjxintong.com.cn 

http://www.j-bigdataresearch.com.cn/

转载、合作:010-53878078

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

fa56a245683119ce5ea72f16d398a237.jpeg

关注《大数据》期刊微信公众号,获取更多内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值