
论文
文章平均质量分 89
醒了就刷牙
这个作者很懒,什么都没留下…
展开
-
SG-Former: Self-guided Transformer with Evolving Token Reallocation
Vision Transformer(ViT)在各种视觉任务中展现了令人印象深刻的成功。然而,其计算成本较高,随着token序列长度的增加,计算量呈平方增长,这在处理大特征图时极大地限制了其能力。为了减轻计算成本,之前的工作要么依赖于局部小区域的精细自注意力,要么使用全局自注意力,但通过缩短序列长度来实现,从而导致粗粒度的表示。在本文中,我们提出了一种新颖的模型,称为,旨在通过自适应的细粒度实现有效的全局自注意力。我们方法的核心是利用一个重要性图。原创 2025-03-28 22:56:55 · 661 阅读 · 0 评论 -
Is Space-Time Attention All You Need for Video Understanding?
正如我们在实验中所示,与完整的时空注意力相比,这种方法会导致分类精度下降,特别是在需要强时间建模的基准测试中。我们提出了一种更高效的时空注意力架构,称为“分离时空注意力”(简称 T+S),其中时间注意力和空间注意力是分别应用的,且顺序进行。需要注意的是,相较于联合时空注意力模型公式 (5) 中每个补丁需要进行的 (NF + 1) 次比较,分离注意力模型每个补丁仅执行 (N+F+2) 次比较。需要注意的是,当注意力计算仅在一个维度上进行(例如,仅在空间维度或时间维度上),计算量会显著减少。原创 2025-03-09 18:04:09 · 949 阅读 · 0 评论 -
时空注意力机制研究
该代码中使用了ViT提取图像特征,并结合了时空注意力机制,使模型能够同时学习图像和视频帧之间的时空关系,从而增强假新闻检测的性能。如果你对代码有任何问题,或者希望进一步修改或扩展功能,随时告诉我!num_frames= 10:这表示你将视频分割成 10 帧,所以num_frames是 10。最终输出的特征形状是,其中是通过 ViT 提取的每一帧的特征维度。通过ViT和时空注意力机制结合,可以有效地从视频中提取出关键物体的特征。原创 2025-03-04 18:41:45 · 884 阅读 · 0 评论 -
《MIGCL: Fake news detection with multimodal interaction and graph contrastive learning networks》中文
随着社交网络中包含多媒体元素的新闻(如图片)的快速增长,跨模态学习对于准确检测虚假新闻至关重要。大多数先前的方法集中于通过开发复杂的神经网络来粗略地融合多模态信息来将图像和句子独立地嵌入到共享的嵌入空间中。然而,这些方法很少在执行多模态融合之前寻求图像和句子之间的细粒度连接,并且缺乏理解复杂的模态内和模态间关系的能力。此外,以往的研究主要集中在样本内部的模态内和模态间关系,而忽略了样本组间的动态性。原创 2025-02-24 21:34:52 · 694 阅读 · 0 评论 -
学习一下强化学习
强化学习(Reinforcement Learning,简称RL)是一种机器学习范式,主要关注如何让智能体(Agent)在环境中通过与环境的交互,学习如何通过选择合适的行为来最大化累积的奖励。它的学习过程不同于监督学习和无监督学习,因为强化学习中的智能体并不直接依赖于标注数据,而是通过和环境的互动进行自我学习。强化学习是机器学习中的一个重要领域,通过智能体与环境的互动,学习如何在不完全信息的情况下做出决策,并通过优化行为来最大化累积奖励。原创 2025-01-22 19:13:13 · 906 阅读 · 0 评论 -
A Dual-Module Denoising Approach 解读
建模多模态依赖关系GCN利用。原创 2025-01-19 23:54:45 · 788 阅读 · 0 评论 -
论文学习:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection
虽然spaCy本身并没有专门的功能来发掘文本中与商品相关的单词,但通过自定义命名实体识别词向量相似度依赖解析和规则匹配等方法,可以有效地从文本中提取出与商品相关的单词。此外,你还可以结合其他技术(如图像识别、推荐系统等),将多模态数据融合使用,提高模型的精度和性能。如果你的目标是针对电商领域中的商品识别,尤其是在检索、推荐等任务中,使用spaCy与其他技术(如图像处理、上下文理解等)相结合,会大大提升商品的提取和相关任务的表现。原创 2025-01-19 23:54:26 · 859 阅读 · 0 评论 -
中文:A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based
文章汉化系列目录文章目录文章汉化系列目录摘要1 引言2 相关工作2.1 多模态基于方面的情感分析2.2 课程学习 (Curriculum Learning)3 方法论3.1 混合课程去噪模块 (HCD)3.1.1 相似度难度度量**3.1.2 基于模型损失的难度度量**3.1.3 综合难度度量3.1.4 课程训练3.2 方面增强去噪模块 (AED)3.2.1 基于方面的增强情感注意力 (AESA)3.2.2 加权关联矩阵3.2.3 图卷积网络(GCN)3.2.4 预测与损失函数五、1、2、3、六、1、2原创 2025-01-10 20:12:49 · 645 阅读 · 0 评论 -
低秩信息收集_0109
即一个矩阵的列向量或行向量的线性独立性。:为了提高模型的适配效率,研究者们通常通过添加适配器层或者优化输入层的激活函数来调整模型,以便更好地适应不同的任务或数据。方法之所以只需要重新训练少量的参数,是因为它的核心思想是将模型的参数增量(更新部分)限制为一个低秩矩阵的形式。因此,相较于全面微调(需要对整个模型的参数进行更新和存储),LoRA 微调极大地降低了训练参数的规模,同时保留了较好的性能。这段话主要讨论的是在大规模模型和延迟敏感应用场景下,传统的模型适配方法存在的一些问题。的数学特性来降低参数量。原创 2025-01-09 19:58:53 · 817 阅读 · 0 评论 -
AoM: Detecting Aspect-oriented Information for Multimodal Aspect-Based Sentiment Analysis
多模态基于方面的情感分析(MABSA)旨在从文本-图像对中提取方面并识别其情感。现有方法大多致力于将整个图像与对应的方面对齐。然而,图像的不同区域可能与同一句中的不同方面相关,将图像-方面对齐粗略地建立会引入噪声,从而影响基于方面的情感分析(即视觉噪声)。此外,特定方面的情感也可能受到其他方面描述的干扰(即文本噪声)。考虑到上述噪声,本文提出了一种面向方面的方法(AoM)来检测与方面相关的语义和情感信息。具体来说,设计了一个方面感知注意力模块,用以同时选择与方面语义相关的文本标记和图像块。原创 2025-01-09 19:20:29 · 837 阅读 · 0 评论 -
同类样本代替时间序列数据的思路
是的,你可以尝试用同类样本来代替时间序列数据作为构建张量的基础,从而应用秩正则化。但这种方法需要根据你的任务和数据特点合理设计具体的构建方式,确保这种替代方法能够有效捕捉多模态之间的关联。以下是一些可行的思路和潜在问题。在时间序列中,样本之间的时间维度提供了顺序关系,而在非时间数据中,可以用同类样本的集合代替时间维度,从而构造张量。假设你有一个非时间序列的多模态数据集,每个样本由多种模态组成(如图像、文本、语音)。你可以:例如:在这种情况下,可以用同类样本作为“模态之间的组合基础”,然后构造张量表示。以下是原创 2025-01-06 20:01:14 · 540 阅读 · 0 评论 -
组会PPT_Learning Representations from Imperfect Time Series Data via Tensor Rank Regularization
下图就是一个简单的多模态图片,图像的金毛和文本的金毛,一起被模型学习,嵌入一个公共的隐空间。什么是秩?张量秩是描述张量可以通过多少个较低阶张量的乘积来表示。先说一下矩阵的秩,比如A,他的秩为2,因为100这个向量无法通过矩阵运算得到010,他们两个竖向量是线性无关的。矩阵其实就是个特殊的张量,他是个二阶张量。然后我们再说以下这个秩为1的张量,它可以是很多阶的,一阶就是一个向量,二阶就是一个矩阵,三阶就是个三阶张量。三阶张量可以由三个向量外积得到。此时它的秩是1。原创 2025-01-06 16:39:16 · 925 阅读 · 0 评论 -
信息搜集250102
多模态基于方面的情感分析(MABSA)结合文本和图像执行情感分析,但常常受到无关或误导性视觉信息的影响。现有的方法通常分别处理句子-图像去噪或方面-图像去噪,但未能全面解决这两种类型的噪声问题。为了解决这些局限性,我们提出了一种名为DualDe混合课程去噪模块(HCD)和方面增强去噪模块(AED)。HCD模块通过引入一种灵活的课程学习策略,优先处理干净数据,从而增强句子-图像的去噪能力。同时,AED模块通过一种方面引导的注意力机制减轻方面-图像噪声,过滤掉与特定分析对象无关的噪声视觉区域。原创 2025-01-02 22:36:24 · 940 阅读 · 0 评论 -
信息收集1224
奇异值表示了矩阵中每个方向的重要性,主要奇异值携带主要信息。数据的信号集中在奇异值较大的方向,而噪声对应较小的奇异值。截断奇异值有效地实现了信号和噪声的分离,保留了数据中最重要的部分。这种特性使得 SVD 在降噪、降维和数据压缩中具有广泛的应用价值。原创 2024-12-25 21:22:35 · 724 阅读 · 0 评论 -
多模态去噪信息收集
利用传统字典学习(DicL)的能力,并借鉴深度神经网络(DNNs)的成功,最近提出的深度卷积字典学习(DCDicL)框架在图像去噪中展现了卓越的表现。需要注意的是,DCDicL方法的应用仅限于单模态场景,而在实际中,图像通常来自多种不同的模态。具体来说,在MMDCDicL的数学模型中,我们采用一种分析方法来处理与指导模态相关的子问题,利用其固有的可靠性。同时,像DCDicL一样,我们为噪声模态采用基于网络的学习方法,从数据中提取可信的信息。在此基础上,我们为MMDCDicL建立了一个可解释的网络结构。原创 2024-12-23 20:58:41 · 1042 阅读 · 0 评论 -
transformer用作分类任务
数据准备:加载并标准化MNIST数据集,将图像展平并切分为patches。位置编码:为每个patch添加位置编码。Transformer编码器:输入展平后的patches并通过Transformer编码器处理。池化:通过池化操作将每个patch的表示聚合成一个全局向量表示。分类头:通过全连接层进行数字分类,输出10个类别的概率分布。训练和优化:使用交叉熵损失进行训练,优化模型参数。评估:评估模型的分类准确率。原创 2024-12-23 20:58:24 · 882 阅读 · 0 评论 -
论文信息收集1217
低秩张量回归框架为图文检索提供了一种更高效的建模方法,特别是在高维数据和需要处理数据内部结构(如冗余)的情形下,可以有效地提升检索效率和模型泛化能力。而一般的多模态图文检索方法则更多依赖于深度学习模型,通过复杂的网络结构来学习不同模态之间的对齐和相似性。这两者的区别在于建模方法、计算复杂性以及适用的任务场景。原创 2024-12-17 17:22:09 · 885 阅读 · 0 评论 -
论文信息搜集
排名相关性信息广泛应用于信息检索模型中,如文本和多媒体检索、问答系统和视觉搜索重排序。然而,现有的特征降维方法忽略了这一潜在的有价值的监督信息。本文将传统类别标签中的成对约束扩展到排名相关性度量,提出了一种新的降维方法——Rank-CCA。Rank-CCA有效地将排名相关性约束融入标准的典型相关分析(CCA)算法中,并能够利用未标记和已标记数据的知识。在视觉搜索重排序的应用中,我们通过大量实验验证了该方法。原创 2024-12-16 20:37:34 · 684 阅读 · 0 评论 -
张量分解信息搜集
模式提取指的是通过CP分解,从高维数据中识别出潜在的、解释性强的结构或规律。这些模式帮助我们更好地理解数据的内在关系,发现数据中的潜在因素或趋势,并用于后续的数据分析、预测、降维和压缩任务。在实际应用中,模式提取能够提高模型的可解释性和预测能力,是数据分析中的一个重要环节。原创 2024-12-12 16:26:13 · 946 阅读 · 0 评论 -
规范秩相关信息搜集Day2
多模态研究是人工智能的一个新兴领域,其中的主要研究问题之一是多模态融合。多模态数据的融合是将多个单一模态表示整合为一个紧凑的多模态表示的过程。该领域的先前研究利用了张量在多模态表示中的表达能力。然而,这些方法通常面临输入数据转化为张量后,维度和计算复杂度呈指数级增长的问题。本文提出了一种低秩多模态融合方法,该方法通过使用低秩张量进行多模态融合,以提高效率。我们在三个不同的任务上评估了我们的模型:多模态情感分析、说话人特征分析和情感识别。原创 2024-12-10 21:45:19 · 950 阅读 · 0 评论 -
规范秩相关信息搜集
张量分解是一种在数据分析中捕捉高阶交互的有效技术。张量分解的一个假设是需要预先知道一个固定的秩。然而,张量秩预测是一个 NP-hard 问题。CANDECOMP/PARAFAC(CP)分解是一种典型的张量分解方法。本文提出了基于卷积神经网络(CNN)的两种方法来从噪声测量中估计 CP 张量秩。一种方法直接应用 CNN 进行 CP 秩估计,另一种方法则在特征获取中添加了预分解,将秩一的组件输入 CNN。通过对合成数据集和实际数据集的实验结果表明,所提出的方法在秩估计准确性上优于现有的最先进方法。原创 2024-12-09 17:01:03 · 634 阅读 · 0 评论 -
论文解读:《FRAPPE: fast rank approximation with explainable features for tensors》
精确秩:是张量的最小秩,表示完全精确重构张量所需的最小因子数量。通常计算上是非常困难的。典型秩:是通过经验或实验选择的一个常见秩,通常用于实际应用中的近似分解。规范秩:通过分解后的因子矩阵得到的秩,通常与等分解方法相关,用于表示张量分解所需的因子数量。每个秩概念的选择和应用都取决于具体的应用场景、计算资源以及对精度的要求。在实际应用中,典型秩和规范秩是更为常见和实用的概念,而精确秩更多是理论研究中的理想值。原创 2024-12-07 12:33:40 · 1094 阅读 · 0 评论 -
《FRAPPE: fast rank approximation with explainable features for tensors》中文校对版
这篇文章介绍了张量分解在分析多维数据结构中的有效性。然而,大多数这些方法需要一个关键参数:期望的分量数量。在CANDECOMP/PARAFAC分解(CPD)中,理想的分量数量被称为规范秩,它对分解结果的质量有着重要影响。现有方法通过启发式方法或贝叶斯方法来估计这一数值,这些方法通过反复计算CPD来完成估计,导致计算开销非常大。在这项工作中,我们提出了FRAPPE,这是第一个不需要计算CPD就能估计张量规范秩的方法。该方法基于两个关键思想。首先,生成具有已知秩的合成数据比计算CPD更加廉价。原创 2024-12-02 20:06:24 · 664 阅读 · 0 评论 -
《FRAPPE: fast rank approximation with explainable features for tensors》中文校对版
这篇文章介绍了张量分解在分析多维数据结构中的有效性。然而,大多数这些方法需要一个关键参数:期望的分量数量。在CANDECOMP/PARAFAC分解(CPD)中,理想的分量数量被称为规范秩,它对分解结果的质量有着重要影响。现有方法通过启发式方法或贝叶斯方法来估计这一数值,这些方法通过反复计算CPD来完成估计,导致计算开销非常大。在这项工作中,我们提出了FRAPPE,这是第一个不需要计算CPD就能估计张量规范秩的方法。该方法基于两个关键思想。首先,生成具有已知秩的合成数据比计算CPD更加廉价。原创 2024-12-02 20:07:33 · 1345 阅读 · 0 评论 -
《AliCoCo2: Commonsense Knowledge Extraction, Representation and Application in E-commerce》中文校对版
人类在进行网上购物时所使用的常识知识非常宝贵,但现有运行在电商平台上的系统却很难捕捉到这些知识。尽管构建电商领域的常识知识图谱极具挑战性,但与已经被广泛研究的开放领域知识图谱(例如 Freebase)相比,在这些图谱上进行表示学习(representation learning)更是面临独特的挑战。通过利用常识知识和表示学习技术,电商中的各种应用可以从中受益。基于AliCoCo[16](一个大规模的电商概念网络,已支持阿里巴巴的一系列核心业务),我们进一步丰富了它的常识关系,并提出了AliCoCo2。原创 2024-11-28 23:20:15 · 1119 阅读 · 0 评论 -
论文解读:《Learning Representations from Imperfect Time Series Data via Tensor Rank Regularization》
张量(Tensor)是一种数学对象,可以看作是多维的数组或矩阵。它是线性代数的一个推广,广泛应用于深度学习、计算机视觉、自然语言处理、物理学等领域。在机器学习和数据分析中,张量是数据存储和表示的重要方式,尤其是在处理复杂数据时,如多模态学习、时序数据和高维数据。张量的基本定义标量(0阶张量)只有一个数值,表示零维数据。例子:( x = 5 )向量(1阶张量)一维数组,表示一个有序的数据集合。例子:( \mathbf{v} = [1, 2, 3] )矩阵(2阶张量)原创 2024-11-27 21:11:50 · 822 阅读 · 0 评论 -
《Learning Representations from Imperfect Time Series Data via Tensor Rank Regularization》中文校对版
近年来,多模态语言处理(包括多模态对话、问答、情感分析和语音识别)受到了越来越多的关注。然而,天然的多模态数据通常存在缺陷,原因包括模态本身的不完美、缺失的条目或噪声污染。为了解决这些问题,我们提出了一种基于张量秩最小化的正则化方法。我们的方法基于这样一个观察:高维多模态时间序列数据通常在时间和模态之间存在相关性,这导致了低秩张量表示。然而,噪声或缺失值的存在打破了这些相关性,从而导致张量表示的秩增大。我们设计了一种模型来学习这些张量表示,并有效地正则化它们的秩。原创 2024-11-27 20:30:39 · 1903 阅读 · 0 评论 -
《Deep Multimodal Learning with Missing Modality: A Survey》中文校对版
这段文字讨论了在多模态模型训练和测试过程中,由于传感器限制、成本约束、隐私问题或数据丢失,某些数据模态可能会缺失,这会对模型性能产生负面影响。为了解决这一问题,专门设计的多模态学习技术可以处理缺失模态,从而保证即使某些模态不可用时,模型仍能保持鲁棒性。这篇综述回顾了多模态学习中的缺失模态问题(Multimodal Learning with Missing Modality, MLMM)的最新进展,重点介绍了深度学习方法。原创 2024-11-26 19:40:23 · 1787 阅读 · 0 评论 -
论文解读《AliCoCo: Alibaba E-commerce Cognitive Concept Net》
Wide 部分记住了明确的历史行为(规则记忆),Deep 部分则挖掘了隐式的复杂关系(泛化能力),两者结合使得推荐既精准又具备拓展性,从而满足用户的多样化需求。原创 2024-11-25 22:01:53 · 833 阅读 · 0 评论 -
《AliCoCo: Alibaba E-commerce Cognitive Concept Net》中文校对版
电子商务平台的终极目标之一是满足用户的各种购物需求。为了实现这一目标,许多努力集中在电子商务中的分类体系或本体的构建上。然而,电子商务中的用户需求尚未得到明确定义,现有的本体在深度和广度上均不足以实现对普遍用户需求的全面理解。二者之间的语义鸿沟阻碍了购物体验的进一步智能化。在本文中,我们提出构建一个大规模的电子商务认知概念网,命名为“AliCoCo”,这是在全球最大的中国电子商务平台阿里巴巴中实践的。我们正式定义了电子商务中的用户需求,并将其概念化为网络中的节点。原创 2024-11-25 17:09:57 · 998 阅读 · 0 评论 -
论文解读:《Unsupervised Multi-Modal Representation Learning for High Quality Retrieval..》
InfoNCE损失函数推导与详细解释1、基本公式与定义InfoNCE的损失函数定义如下:LInfoNCE(X;Y∣f)=E[logf(x1,y)∑xi∈X~f(xi,y)],L_{\text{InfoNCE}}(X; Y|f) = \mathbb{E}\left[\log\frac{f(x_1, y)}{\sum_{x_i \in \tilde{X}} f(x_i, y)}\right],LInfoNCE(X;Y∣f)=E[log∑xi∈X~f(xi,y)f(x1,y)],此损失函数衡量正原创 2024-11-24 22:44:43 · 418 阅读 · 0 评论 -
《Unsupervised Multi-Modal Representation Learning for High Quality Retrieval..》中文校对版
在电子商务中,识别相似商品对于发现商品之间的关系、进行推荐以及增加搜索结果的多样性具有重要作用。商品表示学习是定义通用商品相似性度量标准的第一步;第二步是在大规模场景(如电子商务商品目录级别)上扩展相似性搜索,同时保持结果质量。原创 2024-11-22 10:52:10 · 914 阅读 · 0 评论 -
《E-Commerce Knowledge Extraction via Multi-modal Machine Reading Comprehension》中文校对版
从非结构化数据中提取商品属性是电子商务领域一个重要的信息抽取任务。它在商品推荐和商品知识库扩展等任务中起着重要作用。传统模型通常只利用文本模态信息,这不足以全面描述商品。在近年来,我们越来越多地看到使用多模态数据(如文本、图像和视频)来描述商品,这为更好地进行商品属性抽取提供了可能性。为此,我们提出了一种新颖的模型,称为基于多模态机器阅读理解的电子商务知识抽取方法(EKE-MMRC)。具体来说,该方法从现有知识库中发现缺失的属性并生成问题,然后将其与多模态描述打包,并编码为融合向量。原创 2024-11-22 10:10:51 · 992 阅读 · 0 评论 -
《VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset》中文校对版
这篇论文提出了一种面向多模态理解和生成的视觉-音频-语言全感知预训练模型(VALOR)。与广泛研究的视觉-语言预训练模型不同,VALOR在端到端的方式下共同建模视觉、音频和语言之间的关系。它包含三个独立的编码器,用于单一模态表示,并且有一个解码器用于多模态条件文本生成。我们设计了两个预训练任务来预训练VALOR模型,包括多模态分组对齐(MGA)和多模态分组字幕(MGC)。MGA将视觉、语言和音频投影到相同的共同空间,同时构建视觉-语言、音频-语言和视听-语言对齐。原创 2024-11-21 20:46:27 · 1708 阅读 · 0 评论 -
《Similar modality completion-based multimodal sentiment analysis under uncertain missing modalities》
最近,多模态情感分析(Multimodal Sentiment Analysis, MSA)中不确定的模态缺失为情感分析带来了新的挑战。然而,现有研究无法准确完成缺失模态的补全,也未能充分挖掘文本模态在 MSA 中的优势。针对上述问题,本研究提出了一种基于相似模态补全的多模态情感分析模型(SMCMSA),用于处理不确定模态缺失的问题。原创 2024-11-21 20:31:47 · 1048 阅读 · 0 评论 -
《A multimodal analytics framework for product sales prediction with the reputation of anchors》
销售预测不足容易导致供应配送不及时,进而引发库存问题,造成商家利润损失。以往的销售预测研究主要基于传统电商平台,无法直接应用于直播电商,因为直播电商涉及许多重要因素。本研究的主要贡献是设计了一个多模态分析框架,用于直播电商中产品销售预测。在该框架中,我们探讨了主播声誉对产品销售的影响,并创新性地考虑了历史和实时声誉信号。此外,为了更好地提取实时信号中的有价值信息,我们提出了一个A-tiFSR模型,用于从产品文本和图片中提取特征,并设计了一种细粒度分析方法来挖掘弹幕数据。原创 2024-11-20 22:06:49 · 956 阅读 · 0 评论 -
《MEMF: Multi-entity multimodal fusion framework for sales prediction in live streaming commerce》
直播电商在多模态信息的丰富织网中蓬勃发展,这些信息与多个实体(包括主播、商品和直播环境)交织在一起。尽管有大量的数据可供使用,但如何将这些信息进行综合分析,以预测销售仍然是一个重大挑战。本研究提出了一种多实体多模态融合框架,该框架通过有效地合成多模态数据,并优先考虑实体级别的融合,从而提供全面的特征表示,提升预测性能。在处理与各种产品相关的多模态数据时,我们对Transformer架构进行了改进,首先捕捉产品内模态特征,然后整合跨产品的特征。我们在来自淘宝直播的真实世界数据集上进行了实验。原创 2024-11-20 22:06:13 · 682 阅读 · 0 评论 -
《VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset》中文校对版
视觉和文本已经在当代的视频-文本基础模型中得到了充分的探索,而视频中的其他模态,如音频和字幕,则未得到足够的关注。本文通过探索一个自动生成的大规模全模态视频描述数据集——VAST-27M,旨在建立视频的多模态轨迹之间的联系,包括视觉、音频、字幕和文本。具体来说,我们首先收集了2700万条开放领域的视频片段,并分别训练了视觉和音频描述模型来生成视觉和音频描述。然后,我们使用现成的大型语言模型(LLM)将生成的描述、字幕和指令提示结合起来,整合成全模态描述。原创 2024-11-19 00:15:00 · 2145 阅读 · 0 评论 -
《Consensus Graph Representation Learning for Better Grounded Image Captioning》简要
当代的视觉图像描述模型常常会“幻想”出图像中实际上并不存在的物体,这主要是由于视觉误分类或过度依赖先验知识,导致视觉信息与目标词汇之间的语义不一致。解决这一问题的最常见方法是鼓励描述模型动态地将生成的物体词或短语与图像的适当区域关联起来,即基于定位的图像描述(Grounded Image Captioning, GIC)。然而,GIC使用的辅助任务(物体定位)并没有解决物体幻觉的关键问题,即语义不一致性。本文从一个新颖的角度来看待这个问题:利用视觉和语言模态之间的语义一致性。原创 2024-11-18 14:51:08 · 815 阅读 · 0 评论 -
《CIDEr: Consensus-based Image Description Evaluation》简要
自动化地用一句话描述图像是计算机视觉和自然语言处理领域的一个长期挑战。由于最近在物体检测、属性分类、动作识别等方面的进展,该领域重新引起了人们的关注。然而,评估描述质量一直是一个难题。我们提出了一种新的图像描述评估范式,基于人类共识。该范式包括三个主要部分:一种新的基于三元组的方法来收集人类标注以衡量共识,一种新的自动化评估指标(CIDEr)来捕捉共识,以及两个新的数据集:PASCAL-50S 和 ABSTRACT-50S,每个数据集包含50个句子来描述每张图像。原创 2024-11-18 09:16:11 · 691 阅读 · 0 评论