- 博客(5)
- 收藏
- 关注
原创 Test-Time Prompt Tuning for Zero-ShotGeneralization in Vision-Language Models
众所周知,预训练视觉-语言模型通过正当的文本提示设计已经在下游任务中显示了zero-shot的泛化性。取代原有手工设计的prompt,近期可学习的prompt通过训练数据运用于下游任务。但也受到特定域中数据训练的影响,这会大大降低模型原有的对未知类别的泛化能力。本文就提出一种TPT的优化方法。基于单张测试样本图像来训练自适应prompt,叫做Test-time prompt tuning。
2023-09-13 02:35:47
387
原创 Title: CoCoOp:Conditional Prompt Learning for Vision-Language Models
随着预训练模型视觉-语言模型(如CLIP)能力的不断提升,探索如何将这些模型适应下游数据集或任务就显得很重要了。近期提出了CoOp方法引入了Prompt learning的概念。将视觉域是英语预训练的视觉-语言模型。具体的CoOp将提示的文本内容转换成了一些列可训练的向量,只采用少量的标签进行学习,其效果取得了远超密集人为提示(指的是ZSCLIP,其设定的模板是a photo is a {label}。
2023-09-11 12:14:06
392
1
原创 MultiCapCLIP: Auto-Encoding Prompts for Zero-ShotMultilingual Visual Captioning
监督视觉描述模型需要大量成对的图像或视频与描述具体语言用于描述。收集大尺度信息是耗时耗力的,因此,成对的标记基本不适用。为了解决标记短缺的问题。我们提出了一个简单且有效的zero-shot方法-MultiCapCLIP 方法,可以生成不同场景和语言下的视觉描述,且不需要任何成对标记的下游数据集。在训练阶段,MultiCapCLIP 只需要文本输入数据。主要有两部分:**重建提示概念可以保存对应新场景下的域知识库**;2.**自动编码提示词用于学习输出描述用一种期望的语言**。
2023-09-10 18:22:56
168
1
原创 Failed to build tokenizers ERROR: Could not build wheels for tokenizers, which is required to instal
此外,如果你安装transformer 4.15之类的碰到安装不了,方便的情况下降低python为3.8版本,这是最好的选择,网上有人试了3.10,和3.6都会报编译错误;其次的话安装4.16的版本。1.在google colab 安装transformer时遇见错误tokenizers无法编译。继续安装tranformer =4.15.0 仍然没有用遇见错误如上。此时只剩下最后一条路了,降低python版本为3.8.改变colab中的python版本为3.8,参考链接为。继续安装环境,安装成功!
2023-09-06 17:05:25
7400
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人