自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 论文研读:Calibrating Multimodal Consensus for Emotion Recognition

现有的大多数方法都忽略了不同模态之间可能出现的语义不一致性,例如文本和视觉输入之间存在冲突的情绪暗示。此外,当前的方法往往受到文本模态的主导,因为其具有强大的表征能力,这可能会降低识别的准确性。为应对这些挑战,提出了一种名为Calibrated Multimodal Consensus(CMC)的模型(校准多模态共识)。CMC引入了一个伪标签生成模块(PLGM),用于生成伪单模态标签,从而能够以自监督的方式进行单模态预训练。

2025-10-30 21:42:07 1900

原创 论文研读:Learning to rebalance multi-modal optimization by adaptively masking subnetworks

模态不平衡问题:偏向于占主导地位的模态而忽略其他模态,从而限制了整体效果。现有方法:通常采用modal-level的控制机制调整每个模态参数的更新。存在问题:这种全局范围内的更新机制忽略了每个参数的不同重要性。本文:受子网络优化的启发,探索了一种基于均匀采样的优化策略,其比全局更新更为有效。提出了一种基于重要性采样的元素级联合优化方法,称为Adaptively Mask Subnetworks Considering Modal Significance (AMSS)。

2025-10-28 22:36:10 756

原创 TRAR:Routing the attention spans in transformer for visual question answering学习笔记

问题:如何动态调度全局和局部依赖关系建模解决方法:基于实例的路由方案——TRAR。在TRAR中,每个视觉transformer层都配备了具有不同注意广度的路由模块。该模型可以根据前一步推理的输出动态选择相应的注意,以为每个实例制定最优路由路径。

2023-07-05 16:54:41 704

原创 Iterative visual reasoning beyond convolutions (超越卷积的迭代视觉推理)

2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)AbstractIntroductionIntroductionReasoning frameworkReasoning with convolutionsBeyond convolutionsIterative reasoningAttentionTrainingExperimentsDatasets and graphsTask and evaluation

2020-12-09 17:27:56 726

原创 On exploring undetermined relationships for visual relationship detection(视觉关系检测中的不确定性关系研究)

目录AbstractIntroductionMF-URLNobject detectorundetermined relationship generatorundetermined relationship learning networkmulti-modal feature extraction networkrelationship learning networkExperiments2019 IEEE/CVF Conference on Computer Vision and Pattern

2020-12-08 17:56:35 588 1

原创 Estimation of Visual Contents based on Question Answering from Human Brain Activity(基于人脑活动问答的视觉内容估计)

目录AbstractIntroductionVQA from fMRI datafMRI Decoder with Utilizing Un-labeled ImagesVQA from fMRI dataExperimental ResultsExperimental ConditionsPerformance EvaluationConclusionsAbstract提出了一种基于人脑活动的自由形式VQA估计方法,即大脑解码VQA。该方法可以在观看同一幅图像时实现回答任意来自功能磁共振成像(fMRI

2020-11-19 17:28:02 366

原创 Visual Relationship Detection with a Deep Convolutional Relationship Network (基于深度卷积关系网络的视觉关系检测)

目录AbstractIntroductionProposed MethodOverview of Our FrameworkObject Detection ModuleRelationship Inference ModuleActivation FunctionPair filterExperiments of Our DCR ModelTask SettingEvaluation MetricsComparison with state-of-the-art MethodsAblation Study

2020-11-18 16:40:34 1453 2

原创 ALSA: Adversarial Learning of Supervised Attentions for VQA (VQA中有监督注意的对抗学习)

目录AbstractIntroductionRelated WorkVQAAdversarial LearningALSA for VQAProblem StatementSupervised Attention ModelsAdversarial Attention LearningOptimization for Answer PredictionExperimentsDatasets and BaselinesExperimental Settings and Evaluation MethodsRe

2020-11-17 17:10:29 698 4

原创 VC-VQA: Visual Calibration Mechanism for Visual Question Answering (VQA的视觉校准机制)

目录AbstractIntroductionMethodOverviewVQA moduleReconstruction moduleLoss functionExperimentsAblation studiesPerformance on VQA v1 and VQA v2 datasetConclusion总结Abstract最近,许多研究指出VQA模型容易被数据集偏差所误导,并且严重依赖问题和答案之间的浅层关系,而不是真正理解视觉内容。为了解决这一问题,本文提出了视觉校准机制(VC-VQA),它

2020-11-06 16:48:07 1427 1

原创 Prior Visual Relationship Reasoning for Visual Question Answering(VQA中的先验视觉关系推理)

Prior Visual Relationship Reasoning for Visual Question Answering(VQA中的先验视觉关系推理)目录Prior Visual Relationship Reasoning for Visual Question Answering(VQA中的先验视觉关系推理)AbstractIntroductionMethodologyExperimental StudiesDatasets and MetricsConclusions总结Abstract

2020-11-05 17:50:54 808

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除