自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 文献阅读5-Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis

1.作者提出了一种门控控制机制(gated control mechanism),该机制通过保留门(retain gate)和复合门(compound gate)来动态调整不同模态在融合过程中的占比,从而更有效地整合来自不同模态的信息。:这是文本-音频(TA)模态对融合后的文本模态特征表示。它是由文本模态的原始特征通过模态互补层处理后得到的,融合了来自音频模态的信息。:这是文本-视觉(TV)模态对融合后的文本模态特征表示。它是由文本模态的原始特征通过模态互补层处理后得到的,融合了来自视觉模态的信息。

2025-04-03 21:29:16 462

原创 文献阅读4-Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and U

当文本模态缺失时,MIA利用其他模态(如音频和视觉)的信息来模拟缺失模态的特征。然后,融合后的特征会经过MIA模块(如果需要的话,MIA可以进一步优化特征表示,尽管在文本模态存在时可能不会激活模拟文本模态的特征生成)。第一个UMCA模块处理后的特征会输入到MIA模块,MIA模块会利用视觉和音频模态的信息来模拟生成缺失的文本模态特征。模拟生成的特征和原始的视觉、音频特征会一起输入到第二个UMCA模块,进行进一步的融合和处理。最后,这些特征会输入到第二个UMCA模块,进行更深层次的融合和处理。

2025-04-02 21:00:35 144

原创 文献阅读3-AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

position embedding通过可学习的一维向量实现,假如图像被分成N个patch,可学习的向量长度为D,则会有一个N×D形状的矩阵在训练过程中学习positional embedding。将所有patch的嵌入向量组成一个序列,作为Transformer模型的输入。Transformer通过自注意力机制处理这些序列,从而捕捉图像中各个局部区域之间的全局关系。将每个patch线性投射到一维向量,这个向量可以看作是patch的嵌入表示。主要贡献:证明了Transformer在图像分类任务中的有效性。

2025-04-02 19:48:52 189

原创 文献阅读2-Multimodal transformer with adaptive modality weighting for multimodal sentiment analysis

文章设计了一种多模态注意力机制(Multimodal Attention Mechanism, MAM),通过多个Softmax函数分别计算每个模态的注意力权重,从而避免模型过度关注单个模态内的信息,而忽略模态间的信息交互。输入特征 Hi 通过权重矩阵 WiQ​,WiK​,和 WiV​ 分别转换为查询(Query)Qi,键(Key)Ki,和值(Value)Vi 矩阵。【我的理解:AMA相对于普通的多头注意力机制的区别在于,AMA使用W是可学习的,不是固定的】:使用BERT提取文本特征,维度为768。

2025-03-30 18:56:00 390

原创 文献阅读1-PS-Mixer: A Polar-Vector and Strength-Vector Mixer Model for Multimodal Sentiment Analysis

MLP-Communnicator包含多个相同的层,每层有MLP blocks: Time-mixing MLP and Modality-mixing MLP。CMU-MOSEI 数据集包含更多的视频片段,提供更丰富的多模态情感分析数据。公式结合Pm向量的长度和Sm向量的方向,通过结合之后的向量进行情感分析。图像向量和文本向量共同组成方向向量,表示情感的方向(积极,消极,中性)其中,图像和音频用sLSTM提取特征,文本用BERT提取特征。音频向量和文本向量共同组成强度向量,表示情感的强度(0-3)

2025-03-29 20:47:30 368

原创 springboot+vue项目接入文心一言API

前端 vue elment-ui。

2024-05-05 15:41:37 2731 12

原创 关闭ESlint

'space-before-function-paren': 'off', // 关闭 Infix operators must be spaced 规则。根据报错,在eslintc.js文件的rules中添加对应的规则设置为' off '即可。

2024-04-04 23:33:33 434 1

原创 sqlite Visual Studio Link4272

sqlite vs link 4272

2023-03-18 15:09:41 118

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除