目录
该文章共15页
摘要
在不断发展的分类学领域,尤其是在零样本学习(ZSL)中,准确分类训练数据集中未见实体的挑战仍然是一个重要障碍。尽管现有文献在发展方面丰富,但通常在两个关键领域存在不足:语义一致性(确保分类与真实含义一致)和有效处理数据集多样性偏差。这些差距导致需要一种更强大的方法,能够更有效地应对这两个方面。本文介绍了一种创新的转换器模型与变分自动编码器(VAE)和生成对抗网络(GAN)相结合的方法,旨在在ZSL框架内解决这些问题。选择VAE-GAN的原因是它们的互补优势:VAE擅长提供数据模式的丰富表示,而GAN能够生成多样性而又具有代表性的数据,从而减轻了数据集多样性的偏差。转换器被用来进一步增强语义一致性,这是关键的,因为许多现有模型表现不佳。通过对基准ZSL数据集(如CUB、SUN和Animals with Attributes 2(AWA2))进行实验,我们的方法是新颖的,因为它不仅在提高语义和结构的连贯性方面取得了显著改进,而且有效地解决了数据集偏差。这导致模型在超出训练数据范围的视觉分类任务中的泛化能力显著增强,从 m而填补了当前ZSL研究领域的一个重要空白。
1.介绍
想象一下教导一台计算机识别它从未见过的动物的挑战,这正是零样本学习(ZSL)的本质,这是计算机科学中一个引人入胜的领域,使计算机能够识别它们在训练中从未遇到过的新类别。这与计算机的传统学习方法形成对比,后者通常需要大量的样本。在ZSL中,计算机可以用更少的例子进行学习,依赖于描述或属性等相关信息。在诸如医学影像中识别罕见疾病或自然栖息地中的不常见动物等难以获得大量样本的场景中,这尤其有益。在典型的ZSL方法中,计算机首先接受已知类别的训练,然后利用这些已知类别与新类别之间的相似性来推断后者。这个过程类似于教导一台计算机通过了解马来认识斑马,然后注意它们之间的相似性和差异。在数据有限的情况下,ZSL非常有价值,有助于在例子稀缺的实际场景中应用机器学习。传统的零样本学习和广义零样本学习可以通过它们的训练和测试集之间的区别来区分,如图1所示。
DVBE(Dynamic Visual-Bert Embedding)框架具有语义标签,这些标签通常在已知和未知类别之间表现出很小的类别方差,导致语义后视觉对齐后的视觉表征差异减小,这使得语义一致性的区分变得复杂。因此,未知类别和已知类别的视觉表示通常会对齐。此外,尽管DVBE网络旨在通过构建互补的视觉表示来减轻已知类别偏差,但它依赖于现有的语义信息,可能会延续数据集中存在的固有偏见。例如,如果基于一个偏见的数据集手动注释类别属性标签,那么偏见可能会对模型学习和应用语义信息产生不利影响。
我们的研究引入了一种称为生成对抗网络(GAN)的人工智能模型的新方法,它在各种图像相关任务中都表现出了良好的效果。我们将GAN与我们独特的架构相结合,以增强计算机处理能力并合成不同类型的信息,这被称为多模态融合,这对确保计算机在面对诸如识别以前未见过的动物等任务时学到的特征是适用的至关重要。通过借鉴先前的研究,我们已经改进了GAN的使用方式,更有效地将观察到的特征与相关信息匹配,从而可能提高了我们的方法在没有明确训练的情况下识别新类别的能力。
此外,与传统的无监督学习方法相比,ZSL的优越性在面对未知类别的挑战时变得更加明显。与无监督方法不同,ZSL可以通过理解文本描述和语义来预测训练数据中不存在的类别实例。这种能力在难以获得大量标记数据的领域中特别有益。最近对ZSL的研究表明,它在准确分类未知类别方面的有效性,从而证实了它相对于传统的无监督学习方法的优势。变压器架构最初是自然语言处理的突破[6,9],它是我们研究的核心,我们已经创新地将其适应到我们的ZSL框架中。变压器已经精巧地整合到我们的过程的各个阶段,并涵盖了训练、特征合成和最终分类。我们的方法基于一种独特的变分自动编码器生成对抗网络(VAE-GAN)的组合。
这些包括:
利用变压器增强语义一致性:我们已经改进了变压器模型,这种模型通常用于理解和处理语言,并将其整合到我们的变分自动编码器(VAE)中,确保我们的模型在不同形式(如图像和文本)的数据中一致地解释数据的含义(或语义)[6,10]。
保持结构一致性:通过将设计用于处理图像特征的变压器-VAE与专门用于提取文本特征的另一个VAE结合起来,我们确保我们的模型在处理不同类型的数据时保持统一的结构,这对于其在各种数据格式中进行准确预测至关重要[6]。
通过多模态融合和GAN解决数据差异问题:为了识别现实世界应用中训练集和目标数据集之间经常存在的差异,我们将多模态融合(将不同类型的数据结合在一起)和GAN网络结合起来,使我们的模型能够从不同的数据源中获取见解并利用GAN的生成能力;因此,它能够很好地适应不同的数据分布,有效地减少潜在的偏差[9,12]。我们对知名的ZSL数据集(如CUB、SUN和AWA2)进行了实证评估,清楚地展示了整合变压器架构的优势。我们的方法在基准比较中表现出了卓越的性能,显示出了在这些数据集上广义零样本目标识别的显著改进。此外,我们的方法与现有的以GAN为导向的框架兼容性强,增强了其在零样本识别任务中的多功能性和效能[13]。本文主要探讨了零样本学习(ZSL)。第1节介绍了ZSL的研究意义,讨论了当前研究中存在的问题,然后提出了我们论文的贡献;第2节主要探讨了广义零样本学习(GZSL)的发展和当前方法,特别强调了嵌入式方法和生成方法这两种ZSL的分类方式;第3节详细介绍了我们的算法和网络结构;在第4节中进行了实验,并对结果进行了分析;最后,在第5节中全面总结了整篇论文。
2.相关工作
2.1. GZSL的最新发展
在计算机科学领域,特别是在图像识别和人类语言理解方面,零样本学习(ZSL)的概念已经成为研究的关键领域。这种创新性方法使计算机能够识别在其训练阶段没有遇到过的新实体,比如动物、物体或疾病,一个很好的类比是通过比较已知的类似水果来教给某人识别陌生的水果。研究人员正在积极探索这一领域,寻求能够将这种能力赋予计算机的高效而精确的方法。语义信息的使用是零样本学习的关键要素,它充当着连接计算机已知和未知的桥梁。
为了优化对这些信息的利用,研究人员开发了复杂的算法来建立不同类别之间的关系,并利用了包含世界信息的广泛知识库,为计算机的学习过程提供了更广泛的背景。另一个关键技术涉及教会计算机自主识别和学习重要的特征。然而,单纯依赖语义信息是不够的,这就是生成对抗网络(GANs)等技术发挥作用的地方,它通过为计算机创建新的、多样化的数据来增强其鲁棒性,并提高其对陌生项目的分类能力。
零样本学习是一个充满潜力的领域,研究人员只是开始探索其广阔的潜能。然而,零样本学习面临着几个挑战。一个重要问题是计算机必须处理已知和未知类别之间的不平衡,这通常会导致对熟悉类别的偏向;而对不完善的语义信息的使用也可能在识别新实体时产生错误;领域转移也是一个障碍,如果用于训练的数据与用于测试的数据相差很大,就可能导致计算机预测的偏差。
2.2. 零样本学习策略
平衡嵌入和生成技术在零样本学习领域,专家们主要关注嵌入技术和生成技术,这两种策略各有独特的优势,适用于不同的情境。嵌入技术涉及将复杂的数据转化为更简单的格式,以确保计算机更容易解释,并保留必要的信息,类似于创建一张详细的地图,即使在缩小的情况下也清晰可见。这种方法在深度学习的出现后得到了显著增强,通过将已知实体(如常见动物)与推断出的实体(如稀有动物)进行比较,增强了分类能力。
参考文献[22]提供了生成对抗网络及其多样的应用的全面概述,有助于深入理解。参考文献[23]促进了对神经网络中注意力模型的作用和发展的更全面理解,提供了详细的调查,突出了它们在各个领域的影响,以及对改进模型可解释性的贡献。另一方面,生成技术也围绕着为计算机创建新的示例,并通过利用生成对抗网络(GANs)和变分自动编码器(VAEs)等技术来生成逼真的新数据[24–27]。
然而,每种策略都有局限性。例如,嵌入可能会很复杂,可能仍然难以处理变化或复杂的数据。它有时会导致模型偏见,特别是在数据倾斜或文本描述符的情况下。高级嵌入技术,如注意机制[28]和吸收外部知识[29],正在探索,以减轻这些挑战。相反,生成方法专注于为未知类别生成合成数据[30]。通过使用GANs和类似的模型,这种方法确保生成高保真度和逼真的合成数据,为更全面的训练数据集铺平了道路,并提高了未知类别的性能[31]。我们的研究深入探讨了这些策略,旨在解决每种策略固有的挑战,并最终最大程度地提高零样本学习的有效性。在选择策略时,仔细考虑具体问题和可用工具至关重要。虽然嵌入更直接,但在数据有限的情况下,生成技术提供了更大的灵活性。
3. 材料与方法
3.1. 总体框架
我们的论文从机器学习中的关键概念开始定义,特别强调了图像分类中的广义零样本学习(GZSL)和常规零样本学习(CZSL)。训练集,表示为S,由三元组(x,y,a(y))组成,其中x表示通过卷积神经网络(CNN)提取的图像特征[32];y是训练阶段遇到的类别的标签(表示为YS);a(y)是每个类别的语义属性表示,通常是从手动注释的属性或Word2Vec特征中导出的。
在CZSL的背景下,目标集中在学习分类器fCZSL:X→YU上。GZSL包括一个辅助训练集U,由元组(u,a(u))组成,其中u表示在训练期间未观察到的类别(称为YU),a(u)是这些未见类别的语义属性表示。集合A(U)包含了这些未见类别的所有语义属性表示。CZSL和GZSL的基本区别在于它们分类器的目标。
在本文中,我们提供了一种将双分支VAE结构与GAN相结合的架构。如图2所示,这种特殊的构造通过一个共享模块将GAN的生成器与VAE的解码器相连。在VAE-GAN中(它由一个编码器、一个解码器、一个生成器和一个鉴别器组成),解码器和生成器G是公共组件[33]。编码器ExT处理视觉特征x,将其编码为潜变量z1;类似地,编码器Ea以语义属性a作为输入,将其编码为潜变量z2。通过模块D1x/G1和D1a/G1分别获得重构特征x’和a’。使用交叉对齐损失LCA来比较合成特