LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

发表时间:1 Jun 2023

论文链接:https://arxiv.org/pdf/2306.00890

作者单位:Microsoft

Motivation会话生成 AI 在为生物医学从业者赋能方面显示出显着的前景,但目前的研究主要集中在单模态文本上。多模态会话 AI 通过利用来自公共网络的数十亿个图像-文本对取得了快速进展,但这种通用域视觉语言模型在理解和谈论生物医学图像方面仍然缺乏复杂性

解决方法:在本文中,我们提出了a cost-efficient approach 来训练视觉语言会话助手,该方法可以回答生物医学图像的开放式研究问题。

实现方式关键思想是利用从 PubMed Central 中提取的大规模、广泛覆盖的生物医学图形字幕数据集,使用 GPT-4 从字幕中自我构建开放式指令跟踪数据,然后使用一种新颖的curriculum learning method微调大型通用域视觉语言模型。具体来说,该模型首先学习使用图-标题对对齐生物医学词汇,然后学习使用 GPT-4 生成的指令跟踪数据掌握开放式对话语义,广泛模仿外行者如何逐渐获得生物医学知识。

  1. 我们提出了一种新的数据生成pipline来创建不同的(图像、指令、输出)实例,通过从 PMC-15M 中采样生物医学图像-文本对并使用 GPT-4 仅从文本创建指令(成为预期输出)。这需要零手动注释,并通过搭载 PMC-15 创建了一个极其多样化的视觉指令跟踪数据集,该数据集涵盖了生物医学图像上研究发现的全部范围。

### 关于 LLaVA-Med 的详细介绍 #### 模型概述 LLaVA-Med 是一种专为生物医学领域设计的多模态大型语言与视觉助手模型。该模型基于通用的 LLaVA 初始化,并通过一系列针对生物医学领域的优化措施进行了改进,包括对预训练模型的进一步训练、概念对齐以及全面的指令微调[^1]。 此外,LLaVA-Med 还利用了一个包含大量医疗场景图片及其描述性文本的数据集来增强其性能,使其能够更好地理解和处理复杂的生物医学概念。 #### 训练方法 为了使 LLaVA-Med 更加适用于生物医学领域,开发团队采用了两阶段的训练策略。第一阶段主要集中在生物医学概念特征对齐上;第二阶段则涉及更深层次的指令微调,从而让模型具备更强的理解能力和更高的准确性[^3]。 #### 使用方法 要使用 LLaVA-Med,可以访问项目的官方地址获取详细的文档和支持资源。项目主页提供了完整的安装指南和示例代码,帮助开发者快速入门并集成此模型至自己的应用程序中[^2]。 以下是简单的加载和运行 LLaVA-Med 的 Python 示例代码: ```python from llava_med import LLaVAMedModel # 加载模型 model = LLaVAMedModel.from_pretrained("path/to/model") # 输入样本数据 input_data = { "text": "A patient with symptoms of fever and cough.", "image": "path/to/image.jpg" } # 获取预测结果 output = model.predict(input_data) print(output) ``` 请注意,在实际操作前需确保已下载好对应的权重文件并配置好环境依赖项。 #### 下载方式 可以通过该项目托管平台上的链接直接克隆仓库或者单独下载所需的模型文件。具体命令如下所示: ```bash git clone https://gitcode.com/gh_mirrors/ll/LLaVA-Med cd LLaVA-Med pip install -r requirements.txt ``` 更多关于如何正确设置本地开发环境的内容可参照 README 文件中的指示完成。 #### 场景应用 由于经过专门定制化调整后的特性优势,LLaVA-Med 可广泛应用于各类需要结合自然语言处理技术和计算机视觉技术解决复杂问题的任务当中,比如但不限于辅助诊断工具开发、科研论文解读服务提供等方面工作之中。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming_Chs

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值