
论文阅读
文章平均质量分 94
Icy Hunter
如果我真的存在,也是因为你需要我
展开
-
论文阅读之MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System
具体而言,如图3(b)所示,只有19.3%的表情词同时存在于阳性和阴性样本中,而其余80.7%的表情符号词仅出现在一种类型的样本中(如阳性样本或阴性样本)。给定(a)中的示例,虚假线索去除阶段首先去除文本中的虚假线索,包括标签词(#terrible_food)和表情符号词(emoji_39)以获取(b),然后通过众包对不合理样本重新注释(人类重新注释)阶段对不合理的样本重新注释以获得最终的合理示例(c)。如图所示,在训练、验证和测试集中,阳性样本中的标签词字数平均超过1个,而阴性样本中的少于1个。原创 2024-04-27 17:46:11 · 1762 阅读 · 2 评论 -
论文阅读之AoM: Detecting Aspect-oriented Information for Multimodal Aspect-Based Sentiment Analysis
文章指出现有的方法在将整个图像与相应方面对齐时存在局限性,因为图像的不同区域可能与同一句子中的不同方面相关,粗略的图像-方面对齐可能会引入视觉噪声。:开发了一个新颖的注意力模块,用于细粒度的图像-文本对齐,以选择与方面语义相关的文本标记和图像块,从而提高分析的准确性。:文章提出了一种新的方法,用于多模态基于方面的文本情感分析(MABSA),该方法专注于检测与方面相关的语义和情感信息。:提供了注意力机制的可视化,帮助理解模型是如何学习并关注与方面相关的信息的。原创 2024-04-27 16:00:10 · 1332 阅读 · 1 评论 -
论文阅读之PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization(2024)
此外,文章还介绍了一种基于动量的卸载策略,以减轻PLoRA训练过程中的不稳定性。简单来说,PLoRA就是一次训练过程中,逐渐训练多个A、B矩阵,训练好一组就把他们加到预训练模型参数中,冻结,然后重新初始化一组A、B,继续只训练A、B,过了两个epoch觉得差不多就再加到W冻结,再开一组A、B,因此,一次训练过程可以得到多组A、B。PLoRA就是在训练过程中练一个小的LoRA然后加到预训练模型权重后面,然后LoRA重置,接着练,一个训练过程可以得到好多个LoRA矩阵,练好一个加一个,直到训练过程结束。原创 2024-03-23 15:49:06 · 1349 阅读 · 0 评论 -
论文阅读之Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes Through Multimodal Exp..
这个架构包括CLIP投影基础的跨模态颈部(Cross-Modal Neck),视觉信息文本序列模型(Vision-Informed Textual Seq2Seq model),以及语言敏感的视觉分割模型(Linguistically-Sensitive Visual Segmentation model)。文章还介绍了所提出的模型的方法论,包括多模态霸凌解释(MExCM)的形式化定义,CLIP投影基础的跨模态颈部,视觉信息文本序列模型,以及语言敏感的视觉分割模型。语言敏感视觉分割模型由红色虚线框表示。原创 2024-03-20 19:24:45 · 1048 阅读 · 0 评论 -
论文阅读之Align before Attend: Aligning Visual and Textual Features for Multimodal Hateful Content Detect
这篇文章的主要内容是介绍了一种用于多模态仇恨内容检测的新方法,特别是针对图像和文本结合的模态,如模因(memes)。最后,文章讨论了模型的局限性,包括对低资源语言的适应性、对复杂模因内容理解的挑战,以及由于缺乏真实世界模因数据集而限制了性能评估的范围。实验结果表明,所提出的方法在MUTE和MultiOFF数据集上的F1分数分别为69.7%和70.3%,比现有最先进的系统分别提高了大约2.5%和3.2%的性能。开发了一个注意力框架,用于检测多模态仇恨模因,特别是针对视觉和文本模态的特征对齐。原创 2024-03-20 17:29:06 · 1057 阅读 · 1 评论 -
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment
文章提出的CLFA模型的总体结构如上。然后通过对比学习,在CLIP表示的指导下,将文本和图像的不同表示投影到同一深度空间中,这是促进主要分类任务的子任务。为了解决这个问题,文章提出了CLFA方法,该方法利用BERT对文本进行编码,ViT(Vision Transformer)对图像进行编码,并借用CLIP作为教师模型,通过对比学习实现文本和图像特征的语义对齐。然后,文章指出了以往研究中使用的双编码器结构的局限性,即它们分别对图像和文本进行编码,但未能学习跨模态特征对齐,这使得跨模态深度信息交互变得困难。原创 2024-03-18 12:34:23 · 1209 阅读 · 0 评论 -
论文阅读之Learning Transferable Visual Models From Natural Language Supervision(2021)
训练现有技术的计算机视觉系统来预测一组固定的预定对象类别。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从图像的原始文本中学习是一种很有前途的选择,它利用了更广泛的监督来源。实验证明,在从互联网上收集的4亿对(图像、文本)的数据集上,预测哪一个字幕与哪一幅图像一起使用的简单预训练任务是从头开始学习SOTA图像表示的一种有效且可扩展的方法。在预先训练之后,使用自然语言来参考学习到的视觉概念(或描述新概念),从而使模型能够零样本转移到下游任务。原创 2024-03-17 16:10:29 · 1070 阅读 · 0 评论 -
论文阅读之Multimodal Chain-of-Thought Reasoning in Language Models
本文主要对2023一篇论文《》主要内容进行介绍。大型语言模型(LLM)通过利用思想链(CoT)提示生成中间推理链作为推断答案的基本原理,在复杂推理方面表现出了令人印象深刻的性能。然而,现有的CoT研究主要集中在语言模态上。这篇文章提出了多模态CoT,将语言(文本)和视觉(图像)模式结合到一个分为两个阶段的框架中,该框架将基本原理生成和答案推理分开。通过这种方式,答案推理可以利用基于多模式信息的更好生成的理由。原创 2024-03-08 11:47:23 · 2812 阅读 · 1 评论 -
论文阅读之Reasoning Implicit Sentiment with Chain-of-Thought Prompting
虽然情绪分析任务中通常根据输入文本中的关键意见表达来确定给定目标的情绪极性,但在隐式情绪分析(ISA)中,意见线索通常是隐含或者模糊的。因此,检测隐含情绪需要常识和多跳推理能力来推断意见的潜在意图。在思想链(CoT)思想的启发,本文引入了一个三跳推理(THOR)CoT框架来模拟ISA的模拟人类推理的过程。THOR设计了一个三步提示原则,逐步诱导隐含的方面、观点,最后是情绪的极性。THOR+Flan-T5(11B)在监督微调下将数据集最优性能(SoTA)提高了6%以上。原创 2024-03-01 10:48:35 · 1663 阅读 · 1 评论 -
论文阅读之Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(2020)
迁移学习是自然语言处理(NLP)中一种强大的技术,它首先在数据丰富的任务上对模型进行预训练,然后在下游任务上进行微调。迁移学习的有效性导致了方法、方法和实践的多样性。在本文中,我们通过引入一个统一的框架来探索NLP的迁移学习技术的前景,该框架将所有基于文本的语言问题转换为文本到文本的格式。我们的系统研究比较了几十项语言理解任务的预训练目标、体系结构、未标记数据集、迁移方法和其他因素。原创 2023-05-05 23:23:01 · 627 阅读 · 3 评论 -
论文阅读之Parameter-Efficient Transfer Learning for NLP(2019)
微调大型预训练模型是NLP中一种有效的传递机制。然而,在存在许多下游任务的情况下,微调是参数效率低下的:每个任务都需要一个全新的模型。作为替代方案,我们建议使用适配器模块进行传输。适配器模块产生了一个紧凑且可扩展的模型;它们只为每个任务添加几个可训练的参数,并且可以添加新任务,而无需重新访问以前的任务。原始网络的参数保持固定,从而产生高度的参数共享。为了证明适配器的有效性,我们将最近提出的BERT Transformer模型转移到26个不同的文本分类任务中,包括GLUE基准。原创 2023-05-04 23:22:52 · 1084 阅读 · 1 评论 -
论文阅读之Attention-based Conditioning Methods for External Knowledge Integration(2019)
在本文中,我们提出了一种将外部知识整合到循环神经网络 (RNN) 中的新方法。我们建议将词典特征集成到基于 RNN 的体系结构的自我注意机制中。这种对注意力分布的调节形式,加强了手头任务中最显着的词的贡献。我们介绍了三种方法,即注意力串联、基于特征的门控和仿射变换。在六个基准数据集上的实验表明了我们方法的有效性。基于注意特征的门控在任务之间产生一致的性能改进。我们的方法作为基于 RNN 的模型的简单附加模块实现,具有最小的计算开销,并且可以适应任何深度神经架构。原创 2022-12-27 17:16:27 · 279 阅读 · 1 评论 -
论文阅读之Syntax Encoding with Application in Authorship Attribution(2018)
我们提出了一种新的策略,将句子的语法分析树编码为可学习的分布式表示。所提出的语法编码方案是可证明的信息无损的。具体而言,为句子中的每个单词构建嵌入向量,对语法树中与该单词对应的路径进行编码。这些“语法嵌入”向量与句子中的单词(因此它们的嵌入向量)之间的一一对应使得将这种表示与所有单词级NLP模型相结合变得容易。我们通过经验展示了作者归属域上语法嵌入的好处,其中我们的方法改进了现有技术,并在五个基准数据集上实现了新的性能记录。这篇文章提出一种语法树的编码方式,能够几乎无损地编码语法树。原创 2022-11-29 17:28:36 · 1205 阅读 · 3 评论 -
论文阅读之A Challenge Dataset and Effective Models for Aspect-Based Sentiment Analysis(2019)
读这篇论文之前,我们得先大概了解一下方面级情感分析是什么。Aspect-Category Sentiment Analysis(ACSA):给定Aspect类别(预定义),进行情感极性分类Aspecct-Term Sentiment Analysis(ATSA):识别关于文章出现的目标实体的情感极性例如一句话:其中target表示句子中出现的方面词,预测方面词的情感倾向其中Category表示一类事物的范畴,不一定是在句子里出现的词,而是预先设定的范畴。原创 2022-11-23 15:26:25 · 551 阅读 · 0 评论 -
论文阅读之Dynamic Routing Between Capsules(2017)
capsule network 可以简单理解为将神经网络的标量计算,赋予了方向,变换成了向量进行计算。标量只有大小之分。向量不仅有大小,还有方向之分。应该可以略微感受到这种思路的魔力了。capsule 主要是能够改进CV里CNN对特征提取。因为对于同类事务,CNN经过maxpooling得到最后的结果基本相同,就相当与是不同的输入得到了相同的输出,这其实是不利于泛化能力提高的。原创 2022-11-22 19:01:35 · 661 阅读 · 0 评论 -
论文阅读之Discrete Opinion Tree Induction for Aspect-based Sentiment Analysis
我感觉,如果论文里的公式读不懂,那其实文章就是没看明白(虽然我感觉自己其实也并没有看的很明白,但是还是得讲一讲,万一可以抛砖引玉呢)这就是模型图了,大概看看,意思差不多就是,句子用Bert编码,然后通过强化学习训练意见树,然后意见树用GCN编码,获得树的结构特征,然后和句子和方面词的编码进行特征融合,最后进行分类。粗粗说来,确实感觉挺简单的,但是想要了解每一步咋做的,还是需要仔细阅读,花点心思的。x 表示一句话,x = w1w2…wn其中w就是表示单个词。原创 2022-11-13 14:00:43 · 1078 阅读 · 3 评论 -
论文阅读之Enhancing Transformer with Sememe Knowledge(2020)
读了这篇文章,大概知道义原的用法了,使用义原的精髓应该就是能够考虑义原embedding的训练吧。原创 2022-11-06 21:23:06 · 800 阅读 · 10 评论 -
论文阅读之Improved Word Representation Learning with Sememes(2017)
义原是词义的最小语义单位,每个词义的意义通常由若干个义原组成。由于每个单词的义原并不明确,人们手动注释单词义原并形成语言常识知识库。文章提出词义原信息可以改进词表示学习(WRL),它将词映射到低维语义空间,并作为许多 NLP 任务的基本步骤。关键思想是利用词义原准确地捕捉特定上下文中词的确切含义。文章遵循 Skip-gram 的框架并提出了三个义原编码模型来学习义原、意义和单词的表示,并应用注意力方案来检测各种上下文中的词义。文章对包括单词相似性和单词类比在内的两项任务进行了实验,我们的模型明显优于基线。原创 2022-11-05 16:54:03 · 670 阅读 · 1 评论 -
论文阅读之RETHINKING POSITIONAL ENCODING IN LANGUAGE PRE-TRAINING
这篇文章的联合位置编码,发现其实并不复杂,就是去掉了两项无关项,给[CLS]相关的单独开了两组权重计算位置编码,然后加上相对位置编码。不过分析的过程是满详细的,可视化展示也是很不错,总结的也不错,主要是会感觉附带了一些思考的过程,让你觉得这文章说的确实有道理,最后结果也是好的,因此我感觉这是一篇很不错的文章。原创 2022-11-02 16:49:57 · 1322 阅读 · 2 评论 -
Investigating Typed Syntactic Dependencies for Targeted Sentiment Classification Using GAT(2020)
这篇论文主要的任务是方面级的情感预测:给定一个句子,然后预测文本里的某个词的情感是正向(positive)或是负向(negative)或是中立(netural)。例如:“I like the food here, but the service is terrible.” 里面的food是positive,service则是negative。原创 2022-10-19 14:35:59 · 589 阅读 · 0 评论