该文章核心是验证大型语言模型(LLMs)能否依据CONSORT标准评估临床试验摘要的报告质量,最终最优模型组合达成85%准确率,并提出了CONSORT-QA语料库等创新成果。
一、文章主要内容总结
- 研究背景与目标
- 临床试验报告质量(尤其随机对照试验RCT)影响临床决策,CONSORT是当前应用最广的报告标准,但部分医学领域报告质量仍不足。
- 目标:测试通用领域和生物医学领域的大型生成语言模型,结合不同提示方法(含思维链CoT),依据CONSORT标准评估临床试验摘要报告质量。
- 核心工作步骤
- 构建语料库:创建CONSORT-QA语料库,源自两项分别针对COVID-19干预和儿童青少年抑郁症预防RCT的CONSORT-abstract标准评估研究,含139篇摘要及专家标注。
- 模型与提示方法测试:测试多种模型(如Llama-3、Mixtral-8x22B、BioMistral等),搭配0-shot、few-shot(1-shot、3-shot、5-shot)、思维链(1-shot-cot-orig、few-shot-cot)等提示方法。
- 性能评估:从语料库层面和标准条目层面计算准确率,分析模型大小、生物医学领域适配、提示方法对性能的影响,还研究了模型解释的一致性及句子过滤的作用。
- 关键研究结果
- 模型性能:模型规模越大通常性能越好,Mixtral

订阅专栏 解锁全文
6888

被折叠的 条评论
为什么被折叠?



