Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi

最新推荐文章于 2025-12-12 15:09:43 发布

UnknownBody

最新推荐文章于 2025-12-12 15:09:43 发布

阅读量267

点赞数 6

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM for Medical 文章标签：语言模型 gpt llama

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/142787986

LLM Daily 同时被 2 个专栏收录

1734 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM for Medical

67 篇文章

订阅专栏

本文是LLM系列文章，针对《Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models》的翻译。

胃肠病学中的视觉语言和大型语言模型表现：GPT、Claude、Llama、Phi、Mistral、Gemma和量化模型

摘要
1 引言
2 方法
3 结果
4 讨论
5 结论

摘要

背景和目的：本研究评估了胃肠病学中大型语言模型（LLMs）和视觉语言模型（VLMs）的医学推理性能。
方法：我们使用了300个胃肠病学委员会考试式的多项选择题，其中138个包含图像，以系统地评估模型配置和参数的影响，并利用GPT-3.5提示工程策略。接下来，我们评估了专有和开源LLM（版本）的性能，包括GPT（3.5，4，4°，4omini）、Claude（3，3.5）、Gemini（1.0）、Mistral、Llama（2，3，3.1）、Mixtral和Phi（3），跨不同接口（web和API）、计算环境（云和本地）和模型精度（有量化和无量化）。最后，我们使用半自动流水线评估了准确性。
结果：在专有模型中，GPT-4o（73.7%）和Claude3.5-Sonnet（74.0%）的准确率最高，优于顶级开源模型：Llama3.1-405b（64%）、Llama3.1.70b（58.3%）和Mixtral-8x7b（54.3%）。在量化的开源模型中，6位量化的Phi3-14b（48.7%）表现最好。量化模型的得分与全精度模型Llama2-7b、Llama2-13b和Gemma2-9b的得分相当。值得注意的是，当提供图像时，包含问题的图像的VLM性能没有提高，而当提供LLM生成的字幕时，VLM性能恶化。相比之下，当图像伴随着一句话的人工图像描述时，观察到准确率提高了10%。
结论：总之，虽然LLM在医学推理中表现出强大的零样本性能，但视觉数据的集成仍然是VLM面临的挑战。有效的部署涉及仔细确定最佳模型配置，鼓励用户考虑专有模型的高性能或开