
论文与代码
文章平均质量分 93
看论文,跑代码的日常
庄园特聘拆椅狂魔
每天焦虑一遍,如何变成学术大佬呀| ᴥ•́ )✧
展开
-
BLIP-2:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Model
由于大规模模型的端到端训练,视觉和语言预训练的成本变得越来越令人望而却步。本文提出了BLIP-2,一种通用和有效的预训练策略,它从现成的冻结预训练图像编码器和冻结大型语言模型启动视觉语言预训练。BLIP-2用一个轻量级的查询转换器弥合了通道之间的差距,该转换器分两个阶段进行预训练。第一阶段引导从冻结的图像编码器学习视觉语言表示。第二阶段从冻结的语言模型启动视觉到语言的生成学习。BLIP-2在各种视觉语言任务上实现了最先进的性能,尽管与现有方法相比,它的可训练参数少得多。例如,我们的模型在。原创 2023-12-22 17:47:21 · 1868 阅读 · 0 评论 -
GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding
最近,GPT-4视觉系统(GPT-4V)在各种多模态任务中表现出非凡的性能。然而,它在情感识别方面的功效仍然是个问题。本文定量评估了GPT-4V在多通道情感理解方面的能力,包括面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别等任务。我们的实验表明,GPT-4V表现出令人印象深刻的多模态和时间理解能力,甚至在某些任务中超过了监督系统。尽管取得了这些成就,GPT-4V目前是为一般领域定制的。它在需要专业知识的微表情识别中表现不佳。本文的主要目的是。原创 2023-12-18 20:10:29 · 1604 阅读 · 0 评论 -
Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言
一个前沿的多模态框架,它为大型语言模型提供了音频和视频支持。视听人工智能助理的一个有前途的原型的潜力(1)有限的感知能力:Video-LLaMA的性能受到当前训练数据集的质量和规模的阻碍。(2)处理长视频的能力有限。长视频(如电影和电视节目)包含大量信息,对计算资源提出了更高的要求。(3)幻觉。Video-LLaMA 继承了冷冻LLMs的幻觉问题。原创 2023-12-15 18:24:54 · 1768 阅读 · 1 评论 -
Aesthetically Relevant Image Captioning 美学上相关的图像字幕
两个密切相关的课题: 图像美学质量评价和图像美学字幕。通过ARS加权损失函数基于ARS的多样性审美字幕选择器(DACS)来设计审美相关图像字幕(ARIC)模型。实验结果: 证明了ARS概念的正确性和ARIC模型的有效性。贡献: 一个大型研究数据库DPC2022,其中包含带有评论和美学评级的图像。原创 2023-12-11 17:46:43 · 1718 阅读 · 0 评论 -
Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理
提出EMER任务,去做情感多模态。与传统情绪识别不一样,不仅预测情绪状态,还提供了解释。旨在解决:标签歧义问题,提高识别可靠性为促进研究,构建了初始数据集,开发了基线,并定义评估指标:自动|人工实验结果证明这项任务有难度——现有技术达不到预期效果。使用AffectGPT整合多方面能力来解决当前问题。EMER成为评估多通道LLM音频-视频-文本理解能力的基础任务。目标降低标注成本,增加数据集大小设计更有效的基线,改善任务效果鼓励更多人参与,推进情感计算实际应用8.读后感。原创 2023-12-01 12:21:13 · 2118 阅读 · 3 评论