A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with LLMs-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136768903

本文探讨了大型语言模型在根据医生笔记生成患者住院情况摘要的能力，以及训练数据如何影响摘要的准确性和质量。通过严格的评估协议，研究显示微调可以减少幻觉并保持信息相关性，而GPT-4在减少错误的同时能提供高质量的摘要。定量指标与摘要的忠实度和质量的相关性不强，且GPT-4表现出自动幻觉检测的潜力。

本文是LLM系列文章，针对《A Data-Centric Approach To Generate Faithful and High Quality
Patient Summaries with Large Language Models》的翻译。

摘要

患者往往难以理解自己的住院情况，而医护人员提供解释的资源有限。在这项工作中，我们研究了大型语言模型基于医生笔记生成患者摘要的潜力，并研究了训练数据对生成摘要的忠实性和质量的影响。为此，我们开发了一个严格的幻觉标签协议，并让两位医学专家对100个真实世界的摘要和100个生成的摘要进行注释。我们表明，对无幻觉数据的微调有效地将Llama 2的幻觉从2.60减少到1.55，同时保留了相关信息。尽管这种影响仍然存在，但当用五个例子（0.70到0.40）提示时，GPT-4的影响要小得多。我们还使用无幻觉和改进的训练数据进行了定性评估。GPT-4即使在零样本设置中也显示出非常好的结果。我们发现，常见的量化指标与忠诚度和质量并没有很好的相关性。最后，我们测试了GPT-4的自动幻觉检测，这产生了有希望的结果。