本文是LLM系列文章,针对《A Data-Centric Approach To Generate Faithful and High Quality
Patient Summaries with Large Language Models》的翻译。
摘要
患者往往难以理解自己的住院情况,而医护人员提供解释的资源有限。在这项工作中,我们研究了大型语言模型基于医生笔记生成患者摘要的潜力,并研究了训练数据对生成摘要的忠实性和质量的影响。为此,我们开发了一个严格的幻觉标签协议,并让两位医学专家对100个真实世界的摘要和100个生成的摘要进行注释。我们表明,对无幻觉数据的微调有效地将Llama 2的幻觉从2.60减少到1.55,同时保留了相关信息。尽管这种影响仍然存在,但当用五个例子(0.70到0.40)提示时,GPT-4的影响要小得多。我们还使用无幻觉和改进的训练数据进行了定性评估。GPT-4即使在零样本设置中也显示出非常好的结果。我们发现,常见的量化指标与忠诚度和质量并没有很好的相关性。最后,我们测试了GPT-4的自动幻觉检测,这产生了有希望的结果。