本文是LLM系列文章,针对《Performance Evaluation of Lightweight Open-source Large Language Models in Pediatric Consultations: A Comparative Analysis》的翻译。
摘要
背景 大语言模型 (LLM) 已在医学中展示了潜在的应用,但数据隐私和计算负担限制了它们在医疗机构中的部署。LLM的开源和轻量级版本作为潜在的解决方案出现,但它们的性能,特别是在儿科环境中的性能仍未得到充分探索。我们的目的是评估轻量级LLM在回应儿科患者咨询方面的表现。
方法 在这项横断面研究中,从2022年12月1日至2023年10月30日期间,从公共在线医疗论坛中随机抽取了250个患者咨询问题,其中25个儿科科室各有10个问题。两个轻量级开源LLM、ChatGLM3-6B 和 Vicuna-7B,以及更大规模的模型 Vicuna-13B 和广泛使用的专有技术ChatGPT-3.5于2023年11月1日至2023年11月7日期间用中文独立回答了这些问题。为了评估再现性,每个询问都重复一次。
发现 ChatGLM3-6B 表现出比 Vicuna-13B 和 Vicuna-7B 更高的准确性和完整性 (P < .001),但所有结果均优于 ChatGPT-3.5。与 ChatGLM3-6B (41.2%)、Vicuna