
多模态
文章平均质量分 83
watersink
你怎么对这个世界,世界就会还你一个怎么样的它
展开
-
集7大模态(视频、图片、音频、文本、深度图、热力图、惯性)的IMAGEBIND
ImageBind 规避了这个难题,它利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态,它们与图像的自然配对,如视频 - 音频和图像 - 深度数据,来学习一个联合嵌入空间。通过这样的训练方式,即使没有进行过(声音,文本)的专门训练,也可以取得SOAT的(声音,文本)分类能力。该研究不需要所有模态相互同时出现的数据集,相反利用到了图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐。左后算loss的时候和clip一样,也是对称的交叉熵。原创 2023-05-10 16:38:18 · 1313 阅读 · 0 评论 -
视频文本检索之CLIP4Clip
通过分析发现预训练模型clip是基于2D线性投影训练的,却作为3D线性投影的初始化参数,这导致模型没有学习视频帧间的时序特征。模型为12层,宽度为512,包含8个注意力头。将文本特征W和视频特征Z拼接起来,得到拼接后的特征U,并将U和位置编码P,类型编码T进行拼接,输入Transformer进行编码,然后使用2个全连接层做特征投影,得到最终的输出。根据文本到视频检索中的相似性得分对给定查询本文的所有视频(或视频片段)进行排序,或者在视频到文本检索任务中对给定查询视频(或视频片段)的所有文本进行排序。原创 2023-05-09 20:00:10 · 2148 阅读 · 0 评论 -
图像文本检索之clip
在模型上一共尝试了8个模型,从resnet到ViT,最小模型和最大模型之间的计算量相差约100倍,迁移学习的效果基本和模型大小成正相关。(3)Clip的(image, text)对都是一一配对的,一个图片只对应一个句子,所以这里也没有像一个图片对应多个句子,可以对句子进行随机采样操作。(1)在训练过程中,文本的主干网络和图片的主干网络都没使用类似ImageNet的预训练权重做初始化,全部都是随机初始化的。Clip模型训练数据都是网络爬取的,缺乏数据的过滤和筛选,会存在社会歧视问题。原创 2023-04-27 17:38:31 · 2043 阅读 · 0 评论