本文是LLM系列文章,针对《Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study》的翻译。
摘要
背景:尽管患者可以通过患者门户网站轻松访问他们的电子健康记录和实验室检测结果数据,但实验室结果往往令人困惑和难以理解。许多患者求助于在线论坛或问答网站,寻求同行的建议。然而,关于健康相关问题的社会问答的回答质量差异很大,并非所有的回答都是准确或可靠的。像ChatGPT这样的大型语言模型(LLM)为患者提供了一条很有希望的途径来回答他们的问题。
目的:我们旨在评估使用LLM对患者提出的实验室测试相关问题做出相关、准确、有用和无害的回答的可行性,并确定可以通过增强方法缓解的潜在问题。
方法:我们首先从Yahoo!回答并为本研究选择了53对问答。使用LangChain框架和ChatGPT门户网站,我们对四个LLM(包括GPT-4、Meta-LLAMA2、MedAlpaca和ORCA_mini)的53个问题做出了回答。我们首先使用标准的基于QA相似性的评估指标(包括ROUGE、BLEU、METEOR和BERTScore)来评估他们答案的相似性。我们还利用基于LLM的评估器来判断目标模型在相关性、正确性、有用性和安全性方面是否比基线模型具有更高的质量。最后,我们与医学专家一起对七个选定问题在相同四个方面的所有回答进行了手动评估。