论文阅读笔记(一)LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

https://aka.ms/llava-medhttps://aka.ms/llava-med代码链接:

--------------------------------------------------------------Data--------------------------------------------------

一、本文使用的DATA:
1.Biomedical Concept Alignment Data生物医学概念对齐数据

 本文第一阶段训练的数据集,从PMC - 15M上采样了600K的图文对。虽然该数据集只提供了一个单一的任务指令,即图像描述,但它包含了来自原始PMC - 15M的一组具有多样性和代表性的生物医学概念样本[ 49 ]。

根据标题的长度,被采样的问题要么要求简洁地描述图像,要么要求详细地描述图像。附录A提供了两个问题列表。在实际应用中,PMC-15M [ 49 ]中25 %的标题长度小于30个单词,因此以30个单词作为截断点来决定选择哪个列表。

2.Biomedical Instruction-Tuning Data生物医学指导-调优数据

 论文图一:揭示了本文利用仅支持文本的GPT-4生成多轮对话和答案的过程,这个生成的过程并不会使用图像,而是使用在pubMed文章中图片的标题Caption和论文中对图片的描述。有时图像的标题描述太短,GPT-4不能生成有意义的问题和答案。为了提供更多关于图像的上下文,论文还创建了一个提示,其中不仅包括字幕,还包括从原始PubMed论文中提到的图像的句子。

第二阶段使用的数据是利用GPT-4从PMC - 15M上采样了600K的图文对生成的多轮对话和答案。

--------------------------------------------------------------Methodology--------------------------------------------------

二、本文使用的METHOD:

通用的基座模型使用LLAVA

两阶段训练

1.Biomedical Concept Feature Alignment生物医学概念特征对齐

首先对PMC - 15M到600K的图文对进行筛选。使用一种朴素的扩展方法将这些图文对转换为指令遵循的数据(指令只是表示描述图像的任务。)

对于每个样本,给定语言指令和图像输入,要求模型预测原始字幕。在训练时,我们将视觉编码器和LM权重都冻结,只更新投影矩阵。这个阶段可以理解为将对齐的图文标记词的词汇量扩展到生物医学领域。

2.End-to-End Instruction-Tuning端到端指令调整。

只保留视觉编码器的权重,并继续更新投影层和LM的预训练权重。

为了训练模型遵循各种指令并以对话的方式完成任务,本文利用多轮对话和答案微调我们的模型,开发了一个生物医学聊天机器人。现阶段的LLa VA - Med模型不仅可以作为生物医学视觉助手与用户进行交互,而且在成熟的生物医学VQA数据集上进行评估时,可以获得良好的零样本任务迁移性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值