Evaluation of Clinical Trials Reporting Quality using Large Language Models

该文章核心是验证大型语言模型(LLMs)能否依据CONSORT标准评估临床试验摘要的报告质量,最终最优模型组合达成85%准确率,并提出了CONSORT-QA语料库等创新成果。

一、文章主要内容总结

  1. 研究背景与目标
    • 临床试验报告质量(尤其随机对照试验RCT)影响临床决策,CONSORT是当前应用最广的报告标准,但部分医学领域报告质量仍不足。
    • 目标:测试通用领域和生物医学领域的大型生成语言模型,结合不同提示方法(含思维链CoT),依据CONSORT标准评估临床试验摘要报告质量。
  2. 核心工作步骤
    • 构建语料库:创建CONSORT-QA语料库,源自两项分别针对COVID-19干预和儿童青少年抑郁症预防RCT的CONSORT-abstract标准评估研究,含139篇摘要及专家标注。
    • 模型与提示方法测试:测试多种模型(如Llama-3、Mixtral-8x22B、BioMistral等),搭配0-shot、few-shot(1-shot、3-shot、5-shot)、思维链(1-shot-cot-orig、few-shot-cot)等提示方法。
    • 性能评估:从语料库层面和标准条目层面计算准确率,分析模型大小、生物医学领域适配、提示方法对性能的影响,还研究了模型解释的一致性及句子过滤的作用。
  3. 关键研究结果
    • 模型性能:模型规模越大通常性能越好,Mixtral
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值