
多模态
文章平均质量分 85
B站:阿里武
中山大学 数据科学与计算机学院 专业硕士
展开
-
TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读
前言好吧我又来更新sota 论文了 这个是多模态情感分析的sota 而且和第二名相差很大。摘要多模态语言分析是NLP的一个新兴领域,旨在同时建模说话人的单词语义、语音和面部表情。在这方面,语义通常优于其他模态,因为它们是通过基于Transformer的模型在大型语料库上预先训练的。尽管他们的表现很好,但由于数据不足,在任何模型上训练一个新的自监督学习(SSL)Transformer通常是不可能实现的,这在多模态语言学习中就是如此。这项工作提出了一个基于Transformer的语音前缀语言模型,原创 2021-11-08 23:17:18 · 1769 阅读 · 18 评论 -
CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis 阅读笔记
前言多模态情感分析是一个新兴的研究领域,旨在使机器能够识别、解释和表达情感。通过跨模态交互,我们可以得到说话人更全面的情感特征。(BERT)是一种有效的预训练语言表示模型。然而,以往的研究大多只基于文本数据,如何通过引入多模态信息来学习更好的表示仍然值得探索。在本文中,我们提出了跨模态的BERT(CM-BERT),它依赖于文本和音频模态的交互来微调预先训练好的BERT模型。作为CM-BERT的核心单元,, masked multimodal attention 通过结合文本信息和音频模态信息来动态调整单原创 2021-11-08 22:38:33 · 2139 阅读 · 2 评论 -
Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis阅读笔记
文章目录Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis模型结构encodingRoutingPrediction实验Interpretation AnalysisMultimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis任务:多模原创 2021-05-09 11:42:25 · 667 阅读 · 0 评论 -
阅读笔记 MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis
文章目录1.前言2.模型结构2.1 Modality Representation Learning2.1.1 Utterance-level Representations2.1.2 Modality-Invariant and -Specific Representations2.2 Modality Fusion2.3 Learning2.3.1 Similarity Loss2.3.2 Difference Loss2.3.3 Reconstruction Loss2.3.4 Task Loss3.原创 2021-03-22 13:13:24 · 3558 阅读 · 2 评论 -
Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network for Emotional 阅读笔记
文章目录1. 前言2. 模型结构2.1 Heterogeneous Graph-Based Encoder2.1.1 Graph Construction2.1.2 Graph Initialization2.1.3 Heterogeneous Graph Encoding2.1.4 Emotion Predictor2.2 Emotion-Personality-Aware Decoder3. 实验3.1 损失函数3.2 模型结果4. 总结4.1 模型贡献1. 前言 情感对话系统的成功取决于对情感的原创 2021-03-17 20:56:41 · 829 阅读 · 0 评论 -
A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation阅读笔记
文章目录1. 前景介绍2. 模型结构2.1 编码器2.1.1 Multi-modal Graph2.1.2 Embedding Layer2.1.3 Graph-based Multi-modal Fusion Layers模态内融合**模态间融合**2.2 解码器3. 实验结果4. 模型评价4.1 模型的贡献1. 前景介绍这篇文章讲的是 多模态机器翻译首先把图和句子用一个统一多模态图来表示图结构如下每个结点包含,文本信息和图片信息图有两种边, 一种是相同模态相连的边, 一种是不同模态相连原创 2021-03-17 20:53:27 · 1080 阅读 · 2 评论 -
Bi-modal first impressions recognition using temporally ordered deep audio and stochastic 阅读笔记
Bi-modal first impressions recognition using temporally ordered deep audio and stochastic visual features.本文提出了两种 双模态深度神经网络架构,它们具有两个分支,一个分支用于提取音频特征,另一个分支用于提取视觉特征。 在预处理原始视频数据之后,会生成模型的音频和视觉分支的输入。从两个分支提取的特征将进行融合,整个网络则是端到端训练的。数据预处理一个视频被分成多个不重叠的部分(子视频), 对于每个原创 2021-02-24 14:34:48 · 426 阅读 · 1 评论 -
Multi-modal Score Fusion and Decision Trees for Explainable Automatic Job Candidate Screening 阅读笔记
Multi-modal Score Fusion and Decision Trees for Explainable Automatic Job Candidate Screening from Video CVs这篇文章作为2017年的文章,其准确率非常之高,到2020年也只有一篇超过了它的准确率,所以我们确实需要去看一看这一篇的特征提取方法,以及它所用的融合方法和一些其他的结构模型结构视觉特征提取脸部特征对每一帧,使用人脸对齐方法 Supervised Descent Method, 提取原创 2021-02-13 21:07:49 · 745 阅读 · 0 评论 -
Multimodal analysis of personality traits on videos of self-presentation and induced behavior 阅读笔记
虽然这篇论文的投的期刊IF不是很高,但仍有一些值得学习和借鉴的地方,2020年的最新多模态情感分析1.模型结构1.1 面部特征特征提取用OpenFace 提取68个脸部的坐标点,脸部边界(20),眼睛眉毛(22),鼻子(9),嘴巴(20)然后对坐标点进行线性的变换,把它规划,去掉旋转角度、平移角度,得到面部的正脸照片。resize到224*224建模对生成的连续的人脸照片进行建模,使用两种模型结构:ResNeXt网络CNN-GRU网络其中CNN是AlexNet,模型结构如图原创 2021-02-10 11:14:50 · 782 阅读 · 2 评论 -
Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记
GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记最近在跟进多模态的情感分析发现多模态榜一又被刷下来了,这篇论文是当前时间内的最好的效果,下面就对论文的模型结构以及实验细节,和我自己的心得来做一个笔记。读完这篇文章不得不说这篇论文在篇幅只有5页的情况下,把问题说得非常清楚,他的写作方法也值得我们学习!!!推荐一个好地址: paperwithcode 的 sota 榜, 很方便找代码的。https://papers原创 2021-02-07 20:43:38 · 1716 阅读 · 7 评论 -
Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 阅读笔记
Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 、特征提取部分BERT-large 1024维DenseNet 342OPENsmile 1582z-normalization (怀疑就是这个导致准备率不高,测试一下)DAE部分对于视觉和文字, 因为是一个关于时间的序列特征,所以使用Seq2Seq的 encoder (Transform), 加入卷原创 2020-09-17 20:32:34 · 991 阅读 · 1 评论 -
Modality to Modality Translation: An Adversarial Representation Learning阅读笔记
Modality to Modality Translation: An Adversarial Representation Learning and Graph Fusion Network for Multimodal Fusion通过使用一个新型的对抗的编码解码分类框架用于学习模态不变的嵌入空间,来减少模态之间的差异。文中用到了模态传译方面的知识,由模态传递所引发产生一个对抗的编码框架,也就是说,生成器从单一模态特征中生成一个较好的编码表示,而判别器则需要判别这个表示是否是目标模态所生成的。原创 2020-06-26 22:15:38 · 1129 阅读 · 7 评论 -
阅读笔记 M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues
M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues模型总体结构我们使用三种模态特征,即语音,文本和面部特征。 、流程如下:提取特征以从原始输入is,if和if(紫色框)中获取fs,ft,ff。检查特征向量是否有效。 我们使用指标函数Ie来处理特征向量(黄色框)。将这- 些向量传递到M3ER的分类和融合网络中,以预测情绪(橙色框)。在判断是否有效时,原创 2021-01-14 21:08:20 · 1346 阅读 · 2 评论 -
阅读笔记 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis
前言论文讲的是两个模态的情感分析, 作者提出一个网络,此网络通过在多个层次上引入注意力,从视觉和文本中产生区分性特征。 通过利用视觉数据中的通道channel注意力和空间注意力来获得双注意力的视觉特征。总体来说用 两个注意力 channel attention 和 spatial attention 注意力 提高CNN 采集图像特征能力提出 语义注意力 模拟单词的图像区域与语义之间的相关性, 也就是一个JOINT ATTENDED MULTIMODAL LEARNING的过程(联合多模态学习)原创 2021-01-14 13:21:04 · 1090 阅读 · 0 评论 -
多模态阅读笔记 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning
Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning这篇文件讲的是, 按照现有多模态的任务, 往往会出现噪音的问题, 噪声使得模型一直得不到最好结果, 而这篇文章提出一个去噪方法,自监督的去训练一个去噪模块来消除噪声, 实验结果显示, 用此方法, 能够直接提高 VQA, Text-To-Video Retrieval 等任务的表现本文贡献证明多模态噪声的消除任务 可以归结为 多模态密度估原创 2021-01-12 22:26:25 · 1463 阅读 · 1 评论 -
Multi-modal Multi-label Emotion Detection with Modality and Label Dependence 阅读笔记
背景这篇文章讲的是多标签的情感分析, 这篇文章是考虑多模态的情感分析, 因为是多标签 所以需要考虑不同标签的依赖性,以及每个标签对不同模态的依赖性任务的具体例子是:给定一个视频,包括三个模态信息 (视觉, 文本, 声音)然后给出情感倾向(可以是多个)文章指出 多标签分类比单标签分类要更加难, 以主要挑战是如何去对标签之间的依赖性进行建模, 正如上图所说, 一个Sad 很有可能 和Disgust 是同时出现的, 但是有很小可能会出现 happy 和 sad。论文内容特征初步提取Text :原创 2020-12-30 21:38:39 · 1469 阅读 · 0 评论 -
Multistage Fusion with Forget Gate for Multimodal Summarization in Open-Domain Videos 阅读笔记
介绍这篇文章是 对一个长视频 得到一个摘要, 是属于多模态的论文.模型结构模型总体结构如图, 还是非常易懂的 经典双线程, 其中两个模态有交叉(信息交换)的地方,模型总体还算简单特征初步提取videoResNeXt-101 3D convolutional neural network 提取视频的16帧 , 然后 加入一个位置嵌入position embeddingstext使用两种方式每个单词 使用 biGRU得到单词 embedding每个单词 使用 bTrans原创 2020-12-29 23:23:14 · 721 阅读 · 0 评论 -
阅读笔记 Modality-specific and shared generative adversarial network for cross-modal retrieval
这一篇论文讲的是使用多模态来进行图片的检索, 通过文字检索出最好的图片,模型结构如下:文章提出两个特征概念modality-specific 模态独立特征modality-shared 模态分享特征,也可以理解为共同特征文章采用对抗训练框架, 在生成模型处:使用3个loss 进行训练:semantic discrimination loss 用于保证语义的区分能力 ,要求模型提取的特征,对于类别的区分度高。要求模型提取的special特征和shared特征(文中是把原创 2020-10-13 20:35:17 · 1719 阅读 · 1 评论 -
阅读笔记 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis
CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis模型结构模型包括数据处理, 特征提取, 预测回归三个部分, 下面分别介绍数据预处理visual每个视频取样32帧, 而且每一帧又分为**背景和脸部 **图片 ,以往的工作专注于面部特征, 但是作者认为其背景特征也是一种补充信息, 作者举了一个例子, 单看这个人的面部可能会觉得他很生气, 但是结合背景,可以知道原创 2020-10-09 19:57:40 · 1444 阅读 · 3 评论 -
多模态情感分类 论文阅读笔记 Integrating Multimodal Information in Large Pretrained Transformers
作者创造了一个组件MAG, 用于使BERT 或者 XLNet这种 预训练的模型能对 多模态的信息进行 Fine-tune组件的结构如下:MAG的主要思想在于:非语言模态(其它两个模态)会影响词汇的意义,进而影响向量在语义空间中的位置, 所以非语言和语言共同决定了向量在语义空间中的新位置。 在此图中Zi 表示 只受文本模态影响的位置, 我们通过引入 audio, visual 两个模态的信息得到一个偏移量Hi, 然后计算得到新位置其中MAG的结构 由 AAAI2019 Words can s原创 2020-09-26 11:11:56 · 1708 阅读 · 0 评论 -
阅读笔记 多模态情感分析 Low Rank Fusion based Transformers for Multimodal Sequences
这一篇是讲 多模态情感分类的。模型结构Low Rank Fusion借用了 ACL2018 Efficient Low-rank Multimodal Fusion with Modality-Specific Factors论文中的Low Rank FusionACL2018的模型如下原创 2020-09-25 22:06:45 · 2314 阅读 · 2 评论