自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 MyGO(2024 ACM MM)

在这些嵌入中,e𝑠𝑒𝑐,s(𝑒)封装了𝑒的全局信息,v(𝑒),w(𝑒)包含了局部模态信息。对于每个实体𝑒,我们可以收集其用于对比学习的候选对象为 C(𝑒) = {𝑒𝑠𝑒𝑐, s(𝑒), v(𝑒), w(𝑒)},它由其全局和局部特征组成。其中[CXT]是输入序列中捕获实体上下文嵌入的特殊标记,h是来自CMEE的<s:1>的输出表示,r是每个𝑟∈r的关系嵌入。为了捕获细粒度的多模态信息,我们提出了一种模态标记化(MT)模块,将实体的原始多模态数据处理为细粒度的离散语义标记,作为学习细粒度实体表示的语义单元。

2024-12-16 19:26:06 677

原创 RSME(ACM MM 2021)

一旦选择了视觉信息,图像将通过遗忘门来增强有益的特征,MRP分数小的噪声将被忽略。(pHash它是一种用于 图像识别或多媒体内容相似性 检测的技术,pHash 通过将多媒体文件(通常是图像、视频、音频等)转化为一个较短的哈希值,便于比较和搜索相似的内容,如果两张图像非常相似,它们的 pHash 也会非常相似。因此,在本工作中,我们的遗忘门相对容易捕获视觉可检出图像中的视觉信息,而深度语义图像相对难以被模型检测到。在遗忘门中,根据不同的关系情况,增强实体的有益视觉信息,消除视觉相似性较差的噪声。

2024-12-11 13:19:40 869

原创 Knowledge Graphs Meet Multi-Modal Learning:A Comprehensive Survey部分笔记

在 KG Embedding 训练过程中,模型在正样本和负样本的指导下将实体和关系映射到向量,其有效性依赖于负样本的策略选择和质量来平衡正负实例之间的评分。KG 中的多模态数据通过为选择更高质量的负样本提供额外的上下文来增强传统的负三重采样,从而解决 KGC 模型训练中的关键性能瓶颈。, t)中缺失的关系;探索了 LLM 与生成式 KGC 指令调整的应用,这是 MKGC 中相对未经探索的方法,为进一步探索提供了广阔的领域。(2)模态集成方法使用不同的模态训练单独的模型,结合它们的输出进行最终预测。

2024-12-11 13:01:58 401

原创 TransAE(IJCNN 2019)

对于每个模态,输入层后面是一个具有更少单元的全连接隐藏层,我们将输入分别映射到这些隐藏层,并将它们表示为。知识图中每个实体都有几张图像和一个句子描述,我们首先提取它们的视觉和文本特征向量,然后将这些向量输入到多模态自编码器中,得到联合嵌入作为实体表示。由几个卷积层组成,每个卷积层后面是一个ReLU层和一个最大池化层,在最终的softmax层将图像分类为1000个类别之前,有两个全连接的层。模型,它将段落映射到一个向量,然后通过将段落向量与单词向量平均或连接来计算一个联合向量,并根据联合向量预测下一个单词。

2024-12-10 20:45:55 637

原创 LAFA(AAAI-24)

与现有的 MKGC 方法不同,我们不直接去除这些噪声图像,而是根据上面计算的重要性对它们的视觉嵌入进行线性组合,然后融合视觉嵌入和结构嵌入。根据链接信息计算实体与其关联图像之间的重要性,然后通过我们提出的模态嵌入融合机制融合视觉和结构嵌入,该机制执行线性组合 根据视觉嵌入的重要性,并将其与结构嵌入融合。该模块设计了一种模态交互注意机制,根据链接信息动态衡量图像对实体嵌入的贡献,从而判断哪些图像是噪声,并设计了一种模态嵌入融合机制来融合视觉和结构嵌入。是 hi 的邻居实体集。实体和关系的结构嵌入。

2024-12-04 19:42:12 736

原创 AdaMF-MAT(LREC-COLING 2024)

此外,MMRNS 和 KBGAN仅采用单峰得分函数,但我们的方法引入了具有自适应多模态融合的多模态信息,这是 MMKGC模型和训练策略。(提取特征的方式可以是CNN或者ViT,然后对特征进行处理,CNN过程中进行均值池化取窗口内像素值的均值,ViT过程中忽略最后一层输出的全局特征 [CLS]然后对剩下的Patch Tokens 求均值,结果是每张图片得到一个全局特征向量,最后将这些特征通过投影转换为视觉嵌入向量)对于每个三元组(h,r,t),我们为头实体和尾实体生成合成多模态嵌入并构造合成实体。

2024-12-03 18:46:39 972

原创 MMRNS(2022 ACM MM)

(图像建模的视觉Transformer模型,借鉴了BERT中掩码语言模型,与ViT相比,ViT是直接用于监督学习的图像Transformer模型,而BEiT通过自监督预训练学习通用表示,然后迁移到下游任务。我们用跨模态特征来表示关系无关的特征,这些特征在不同关系下都是重要的,以识别硬样本。例如,在图1中,taylor Swift的负样本应该是一个与人相关的实体,包含更多与人体或面部相关的属性,而不是其他不相关的实体,如位置,无论关系是AwardOf还是Girlfriend。因此,迫切需要一种专门。

2024-11-27 22:28:44 601

原创 采样温度T

采样温度是用来调节模型在生成输出时,从概率分布中选择下一个输出的方式。它通过一个公式调整分布的“平滑程度”,具体作用于。,原本高概率的选项变得相对不那么占主导地位,低概率选项有更高的选择可能性。当 T→0:分布趋向“硬选”,只会选择概率最高的选项(类似贪心搜索)。适用场景:模型生成默认的输出结果,无额外随机性或调整。当 T→∞:所有选项的概率趋于均匀分布,完全随机选择。,高概率的选项被放大,低概率的选项被进一步抑制。适用场景:需要更高的多样性或创造性的生成结果。适用场景:需要更确定性和连贯性的生成结果。

2024-11-27 22:06:27 264

原创 VISTA: Visual-Textual Knowledge Graph Representation Learning(2023 EMNLP)

我们将 ViT的输入大小调整为 224 × 224,并将最后一层 Transformer 网络的 [class] token 的隐藏状态作为整个图像的全局特征表示,视为视觉特征向量。而现有的知识图谱不提供三元组的图像,并且可能缺乏视觉上可表达的三元组,因为它们主要是通过从文本中提取信息来构建的。中的一些尾部实体包含谓词。,我们使用了预训练的 BERT。我们将 VTKG 定义为 G = (V,R,T, I, D),其中 V 是一组实体,R 是一组关系,T 是一个三元组的集合,I是一组图像,D是一组文本描述。

2024-11-26 20:42:49 904

原创 MMKRL(2022 Applied Intelligence)

表示生成的对抗性样本,梯度符号 ∇x表示对输入 x求导,ε是一个用于缩放扰动大小的超参数,∇代表损失函数Lki的梯度,θ是当前的知识整合参数。为了减少统一空间中集成多模态实体和关系的差异性,我们考虑了距离,并通过最小化知识对齐损失来更新多模态kg的表示。之前的方法忽略了知识整合后的重构误差,使得KRL模型难以保持多模态知识库的固有特征,重构误差是指输入知识与集成知识之间的语义差异。具体而言,MMKRL首先通过对不同的似然函数求和来重构多源知识,然后使用特定的范数约束对多源知识进行对齐,以减少重构误差。

2024-11-25 21:57:43 821

原创 MKBE(2018 ACL)

利用一个全连接网络,输入是已经训练好的向量,输出是数值和类别,损失函数是 RMSE(均方根误差,用于数值预测)或者 cross-entropy(交叉熵损失,用于分类任务);但是不足之处在于不知道到底引入的哪一部分多模态数据对最终的链接预测产生提升,以及产生的多模态数据质量不是很理想。对于知识库中的实体,将他们的 one-hot 编码通过一个 denselayer (全连接层)得到它们的 embedding;是 模型预测出来的这个三元组成立的概率,它的值介于 0 到 1 之间。

2024-11-25 13:50:34 287

原创 多模态DKRL和IKRL

其次,为了实现多个图像表示的融合,我们实现了一种基于实例级注意力的学习方法,自动计算每个实体在不同图像实例上所应给予的注意力。图像表示模块使用了AlexNet(作为神经网络来提取图像的特征,包含5个卷积层、2个全连接层和1个softmax层),用一个共享的投影矩阵将图像特征表示从图像空间转移到实体空间。中,我们首先从原始文本中删除所有停止词(频率很高,但对语义贡献较少的词),然后在描述中标记所有短语(我们简单地选择训练集中的所有实体名称作为短语),并将这些短语视为单词。,xn)的预处理描述,

2024-11-24 17:35:39 700

原创 IMF: Interactive Multimodal Fusion Model for Link Prediction(2023 WWW)

为此,我们提出采用双线性模型作为多模态信息融合的基石,该模型具有较强的实现全参数交互的能力。然后,使用上下文变换矩阵对实体嵌入进行投影,得到上下文嵌入,用于计算与所有候选实体的相似度(余弦相似度)。在多模态设置下,我们为每个模态分配不同的上下文关系模型,并利用它们自己的结果在不同的视图下进行训练。(嵌入模型转化为向量或矩阵表示后通过某种融合方法(如外积操作,论文中也没说是怎么融合的/(ㄒoㄒ)/)构造的一个高阶张量。Pc是核心张量,Ms、Mv、Mt是不同模态下的模态因子,Md是其他特定维度下的模态因子。

2024-11-21 08:51:16 410

原创 MKGformer(2022 SIGIR)

本文在自注意层提出了一个前缀引导的交互模块(PGI),以预先减少模态异质性,并进一步设计了一个相关感知融合模块(CFM),在FFN层实现了token-wise细粒度融合,以减少来自不相关图像/对象的噪声。我们先将每个图像重新划分为到统一的𝐻×𝑊像素,然后将图像重新调整为 u = HW / P^2 个展平的二维小块(patch),其中 P 是每个小块的尺寸,然后,对文本标记的相似矩阵𝑺执行softmax函数,并对图像中的视觉标记使用平均标记智能聚合器(将多个特征平均或加权平均的技术,)

2024-11-13 14:02:00 1034

原创 图神经网络知识图谱推理模型(R-GCN、KBGAT、CompGCN)

通过这幅图可以看清,对于中心红色的节点进行一次卷积,通过聚合邻居节点的信息来更新自身节点的表示。图中节点vi的更新方式如下:R为关系结合,N为邻居点集合,c为一个常量(正则化系数),W为参数矩阵遍历每一种关系下,叠加每一个点的邻居点的特征进行融合,最后加上一层的中心节点特征,经过一个激活函数输出作为中心节点的输出特征由于关系类型的数量可能非常多,直接对每种关系类型都分配一个参数矩阵,导致参数数量过多,为防止过拟合,提出了两种方法对R-GCN层进行正则化为块对角矩阵。

2024-11-06 22:03:11 1693

原创 基于平移距离的知识图谱推理模型(TransE、TransH、TransR、TransD、RotatE)

将关系视为低维向量空间中的头实体到尾实体的平移训练目标:最小化正确的三元组与错误的三元组之间的分数差距。具体来说,对于正确的三元组(头实体,关系,尾实体),TransE希望满足公式中的近似关系,而对于错误的三元组(头实体,关系,错误的尾实体),TransE希望分数差距大于某个阈值。损坏三元组由训练三元组用随机实体替换头部或尾部组成,但不能同时替换。局限性:TransE模型在处理多对一、多对多、自反关系的会有很多局限性。如将三元组(诺兰,导演,《星际穿越》)等同于( 诺兰,导演,《盗梦空间》)将头实体、尾实体

2024-11-04 21:54:10 414

原创 基于语义匹配的知识图谱推理模型(RESCAL、DistMult、HolE、ComplEx)

1、知识图谱表示成三维张量每个关系对应于张量(三维) 中的一个 切片(二维),即一个矩阵,如下图,其实相当于存储各对实体是否有这样的关系,有则表示为 1,没有则表示为 02、张量分解:RESCAL 通过将关系矩阵和实体向量结合起来,拟合张量(其中的每一层表示第 k 种关系下的所有实体对关系)中的每个值。具体来说,对于三元组 (h,r,t),其对应的值通过这种方式,RESCAL 可以捕捉到实体和关系的交互作用,从而表示出知识图谱中的复杂关系模式。3、优化目标:通过最小化函数来求得和。

2024-11-04 20:01:21 701

原创 基于神经网络的知识图谱推理模型 (ConvE、ConvKB、ConvR、InteractE)

ConvE是一种使用嵌入上的 2D 卷积来预测知识图中缺失链接的模型,在学习及提取实体及关系的语义特征方面具有很强的优势。,dropout随机丢弃,防止过拟合,通常表示某种加权或融合。。通过这样处理,可以捕获源实体、目标实体和关系 r 之间的复杂交互关系。除此之外,该模型提出了1-N评分方法,采用一对 (s, r) 并针对所有实体 o 对其进行评分 ,使得模型的评测速度相比1-1评分方法提升了300倍。

2024-11-02 21:45:10 889

原创 安卓应用UI设计

安卓应用UI设计

2023-04-01 00:57:52 305

原创 微信的主页面框架

本次实验是通过Android studio进行对微信主页面框架的搭建,对TextView,fragment,button等组件的使用有了更深的理解,同时熟练了整个软件的使用。

2023-03-03 00:57:09 657

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除