- 博客(15)
- 收藏
- 关注
原创 【论文小结】Multi-level feature decomposition and fusion model for video-based multimodal emotion recognit
面部表情和身体动作的重要性在不同的情绪状态下有所不同,简单地连接这些特征会忽略精确的情感识别所需错综复杂的相互作用和适应性。通过最小化分解损失,该模型在最大化私有特征的区分度和最小化共享特征的损失之间取得了有效的平衡。引入了一种基于互信息和对比学习的多层次特征分解损失,以解耦不同模态的共享和私有特征。基于视频事件簇捕获帧的空间细节和时间关系,用于从视频中捕获情感的关键变化,包括面部和手势特征。来融合和增强多模态特征表示,用于处理模态异质性并有效地整合多模态特征。问题,从而阻碍了多模态表示学习和特征融合。
2025-09-01 17:50:16
352
原创 【论文小结】Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learnin
HAL 的核心原则是学生网络试图生成表示以误导鉴别器 𝒟e(⋅),而 𝒟e(⋅) 区分学生和教师网络的表示。指的是模型为了更准确理解整体情感,而对不同模态(如文本、语音、视觉)之间的相互关系和依赖进行建模的过程。(一种分层对抗学习机制):考虑到教师网络具有更稳健和稳定的表示分布,我们还需要鼓励潜在空间中。近年来,许多研究试图解决 MSA 中缺失模态的问题。(一个细粒度的表示分解模块):通过模态内和模态间转换以及情感语义重建,(一种分层互信息最大化机制):从信息论的角度来看,表示的。
2025-08-30 17:25:19
929
原创 【论文小结】Towards Robust Multimodal Sentiment Analysis with Incomplete Data
受先前工作 ALMT 的启发,我们假设当主导模态的完整性在不同的噪声水平下保持不变时,模型的鲁棒性会得到提高。通常包含密集的情感信息,我们将其视为。,来增强模型在各种噪声场景下的鲁棒性。
2025-08-24 20:15:01
795
原创 【论文小结】Token-disentangling Mutual Transformer for multimodal emotion recognition
指的是不同模态(如文本、语音、视觉)或同一模态内部因数据来源、表示形式或语义差异而产生的多样化、非对齐的特征。,通过使用两个双向查询学习来交互和融合解耦的特征 Token,这为多模态情感识别提供了更全面和互补的多模态情感表示,能够完全探索不同解耦特征(一致性特征、异质性特征)在情感交互方面的贡献。此外,基于对抗学习的方法还需要额外的精心设计的网络模块和大量的训练数据来进行适当的训练。,从而导致了次优的性能。为了实现这一点,一种策略是引入对抗学习,分别提取多模态的一致性信息和各模态的异质性信息。
2025-08-22 16:26:59
406
原创 【论文小结】TMBL: Transformer-based multimodal binding learning model for multimodal sentiment analysis
(绑定学习机制):受CLIP模型的启发,我们开发了一种模态绑定机制,该机制有效地结合了共享的模态特征,然后将这些特征共同输入到 Transformer 模型中,以获得模态不变的特征表示。:为了在学习过程中区分模态不变特征和模态特定特征,我们在进入模态融合模块之前将分类 token 和位置 token 引入特征数据,以确保清晰度,并提高模型对模态之间高层语义关系的理解。,这可能是模态融合的一种更有前景的方法。· 为了充分利用模态间交互的潜力,为提取的模态特征嵌入制定了绑定策略,即双模态绑定和三模态绑定。
2025-07-22 20:27:52
744
原创 【论文小结】Learning in Order! A Sequential Strategy to Learn Invariant Features for Multimodal Sentiment
备注:在多模态学习中(如图文、语音文本),不同模态的特征经常互相协同来完成任务。· 根据文本在每个模态中的表现,凭经验发现文本是优于视频的模态。进一步研究表明,在强大的文本特征上进行条件设置会减少与这些文本特征相关的视觉特征的选择。-> 利用领域不变稀疏表示,采用稀疏掩码技术来去除与标签虚假相关的特征(特定于领域的特征)。:首先利用稀疏掩码技术从文本中选择不变的隐藏特征,然后根据所选文本特征学习视频中的不变特征。通过计算掩码向量与相应隐藏表示之间的点积,可以实现模态中的特征选择。表示分类器的证据强度。
2025-07-17 20:57:18
656
原创 JavaGuide-MySQL笔记整理
undo log 属于存储引擎层,undo log 和 redo log 只有 InnoDB 有,是为了支持事务和一致性读而设计的,由于 MyISAM 根本不支持事务和 MVCC,所以它根本不需要 undo Log,也就没有。· 缓存建立之后,MySQL的查询缓存系统会跟踪查询中涉及的每张表,如果这些表(数据或结构)发生变化,那么和这张表相关的所有缓存数据都将失效。其他索引都是辅助索引,叶子节点的 data 域存放的是主键值。在 InnoDB 中,除了主键索引是聚集索引之外,其余所有索引都是辅助索引。
2025-04-15 22:03:30
856
原创 【论文小结】CLGSI: A Multimodal Sentiment Analysis Framework based on Contrastive Learning Guided by Sent
例如,给定样本 𝑖、𝑗 和 𝑘,其中样本 𝑖 与样本 𝑗 和样本 𝑘 之间的情感强度差异分别为 0.5 和 1.6,则 (𝑖,𝑗) 和 (𝑖,𝑘) 都是样本 𝑖 的初始负样本对。因此,在计算对比损失时,我们为 (𝑖,𝑘) 赋予更高的权重,使样本 𝑖 和样本 𝑘 在表示空间中的距离比样本 𝑖 和样本 𝑗 更远。通过结合样本 i 的模态内样本对和模态间样本对,在对比学习过程中,我们得到样本 i 的正样本对。(本论文中超参数设为 0.4)来判断样本 j 是否被分类为样本 i 的初
2025-03-28 17:41:43
714
原创 【论文小结】KEBR: Knowledge Enhanced Self-Supervised Balanced Representation for Multimodal Sentiment Anal
(Modal Bias)通常指的是由于不同模态在数据质量、信息贡献度、或模型处理方式上的不均衡,导致某些模态在情感识别过程中占据主导地位,而其他模态的作用被削弱或忽略,从而影响模型的公平性和准确性。多模态余弦约束损失函数:通过限制注入的非言语信息在融合后的多模态表示中的作用,从而减轻模态偏差。基于文本的跨模态融合方法:将音频和视觉模态的低级特征注入到文本中,以增强文本的多模态信息表示。在TCMF方法中,来自音频和视觉模态的。:TCMF中利用音频和视觉模态的低级特征,增强文本的多模态表示。
2025-03-23 17:27:08
522
原创 黑马程序员/黑马点评/Redis-笔记整理
视频地址:黑马程序员Redis入门到实战教程,深度透析redis底层原理+redis分布式锁+企业解决方案+黑马点评实战项目
2025-03-13 16:35:25
321
原创 【论文小结】ConKI: Contrastive Knowledge Injection for Multimodal Sentiment Analysis
将每个模态的特定知识表示和泛知识表示串联起来,然后将它们输入到一个全连接(FC)层中进行模态内融合,之后设计了一个由级联层和融合模块组成的用于多模态融合的融合网络。进行预训练,同时固定预训练骨干模型的参数。考虑到了ConKI只在Adapter中编码特定知识,而Adapter与骨干模型相比具有更少的可训练参数。,那么他们的情绪得分可以四舍五入到相同的整数,故样本 i 的六种表示(即。以产生特定知识表示,泛知识表示和特定知识表示首先在。,因为它们属于不同的知识域,旨在相互补充。ConKI可以通过知识注入,
2025-02-26 20:32:14
886
原创 【论文小结】GLoMo: Global-Local Modal Fusion for Multimodal Sentiment Analysis
每个 token 对应的 position 都会有一个 MoE Layer,每个 MoE Layer 中包含了一堆的 experts,每个 expert 都是一个小型的 FFN,有一个门控网络 gating network 会根据当前 position 的输入,选择少数几个 expert 来进行计算,它们的输出由门控网络的输出进行调节。备注:对于某些样本,门控网络给了某个专家很高的权重,为了使得各个专家的权重和均衡,该专家接收的样本数量就会减少,这就导致不同专家可能接收到非常。
2025-02-21 16:17:20
583
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
3