论文笔记| Task and Model Agnostic Adversarial Attack on Graph Neural Networks

文章信息

Published in: The Thirty-Seventh AAAI Conference on Artificial Intelligence (AAAI-23)

作者:Kartik Sharma,Samidha Verma,Sourav Medya,Arnab Bhattacharya,Sayan Ranu

文章链接:Task and model agnostic adversarial attack on graph neural networks | Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence and Thirty-Fifth Conference on Innovative Applications of Artificial Intelligence and Thirteenth Symposium on Educational Advances in Artificial Intelligence

核心思想

当前存在不足

虽然黑盒攻击不需要任何模型参数的信息,但它们在三方面做出了关键假设:

  1. 任务特定策略:大多数GNN模型是为特定任务(如节点分类)训练的,使用适当选择的损失函数。现有的对抗攻击技术根据已知的特定预测任务调整其策略,因此不能推广到未见的任务。因此本文提出一个问题:是否可以设计任务无关的对抗攻击?
  2. GNN模型的知识:尽管黑盒攻击不需要知道模型参数,但它们通常假定模型类型。例如,攻击可能针对GCN定制,如果受害模型切换到Locality-aware GNNs【You, Ying, and Leskovec 2019; Nishad et al. 2021】,则攻击可能无效。
  3. 依赖标签:一些BBA算法需要知道真实数据。例如,一个算法可能需要知道节点标签来对节点分类进行对抗攻击。这些真实数据通常在公共领域不可用。例如,Facebook可能根据用户的主要兴趣领域标记用户,但这些信息是专有的。

改进思路

本文针对的攻击为黑盒攻击,主要使用深度强化学习算法,对目标节点的领域进行扭曲(本文任务为Target Attack)

本思路基于一项观察结果:无论任务或模型类型如何,如果可以扭曲节点的邻域,下游预测任务就会受到影响。我们的分析表明,预算约束的邻域扭曲是NP难的。通过使用图同构网络(GIN)来嵌入邻域,并使用深度Q学习(DQN)来有效地探索这一组合空间,克服了这一计算瓶颈。

问题重述

给定一个 GNN 模型 M,其在图 G上针对特定预测任务的性能用一个性能指标量化;其中f_2 使用嵌入z_v(G)和真实标签或分数 v 计算节点 v 的性能。总体性能 P^*_M(G) 是对所有节点的性能进行某种聚合 f_1P^*_M(G) = f_1\left(\{ f_2(z_v(G), v) \mid v \in V \} \right)

一个对抗性攻击者希望通过执行 B  次边删除和添加来更改 G ,以最小化目标节点  t  的性能。我们假设攻击者可以访问节点子集 C \subseteq V,并且只能在 C \cup \{ t \} 集合中的节点之间修改边。

TANDIS:Targeted Attack via Neighborhood DIStortion

攻击者无法访问P^*_M(G)和模型M的类型,因此本文引入一个代理模型\phi(G, t),如果修改后图使得\text{distance}(\phi(G, t), \phi(G^*, t))远远大于0,则认为两个图显著不同。本文\phi(G, t)\phi(G, t)定义如下

\delta(v, G, G') = 1 - \frac{|N^k_G(v) \cap N^k_{G'}(v)|}{|N^k_G(v) \cup N^k_{G'}(v)|},其中N(v)代表节点v的k阶邻居。

则问题可以被重述为:

TANDIS的框架如图所示:

 其核心就在于使用强化学习及GIN的嵌入使得两个图的表示尽可能不同。

### Task-agnostic 视频语言模型 (VLM) 的预训练及其在视频理解中的应用 #### 定义与背景 Task-agnostic 视频语言模型(VLM)是一种能够处理多任务场景的通用型模型,旨在通过联合建模视频和文本数据来捕捉跨模态的信息交互。这种类型的模型通常通过对大规模未标注或多标签的数据集进行自监督学习完成预训练阶段[^2]。相比传统的任务特定模型,Task-agnostic VLM 更加灵活,在多个下游任务中表现出色。 #### 预训练方法概述 预训练的核心目标是从大量无标记或弱标记的多媒体数据中提取有用的特征表示。对于视频语言模型而言,常见的做法是将视频序列分解为离散的时间步,并将其映射到高维向量空间中。具体来说,给定一段视频片段 \( v \),以及对应的自然语言描述 \( t \),可以通过以下方式实现: 1. **Token化**: 将视频帧转换为一系列 token 嵌入,这一步骤可能涉及使用冻结的视觉编码器(如 ResNet 或 Swin Transformer)提取每帧的空间特征。 2. **时间建模**: 利用可训练的 MLP 层或其他结构进一步捕获帧间关系,从而得到最终的视频 token 表示。 3. **对比学习框架**: 在许多情况下,采用基于对比损失的目标函数优化模型参数,使得正样本对之间的相似度最大化而负样本最小化[^3]。 #### 应用于视频理解的具体案例分析 以 Meta AI 和 CMU 提出的任务无关视频语言模型为例,该架构展示了如何有效地结合来自不同源域的知识来进行广泛的视频理解和生成任务。此外,还有其他研究尝试比较不同类型 VLM 架构的效果差异,例如 BLIPBASE 和 XVLMCLIP 这两类分别代表了编解码器网络混合模式和平行流模式的设计理念。 当涉及到实际应用场景时,像 SeeDo 系统那样利用预先训练好的大型多模态语言模型去解析真实世界的演示录像成为一种新兴趋势[^1]。它不仅继承了传统模仿学习技术的优点——即把复杂的操作拆分成更易于管理的小单元;同时还引入了先进的 NLP 技术支持更加多样化的动作执行形式。 ```python import torch from transformers import VideoMAEModel, AutoTokenizer def extract_video_features(video_frames): video_encoder = VideoMAEModel.from_pretrained('videomae-base') tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased') with torch.no_grad(): frame_embeddings = video_encoder(video_frames).last_hidden_state text_input_ids = tokenizer("A man is playing basketball", return_tensors="pt")['input_ids'] # Hypothetical fusion mechanism between visual and textual embeddings. fused_representation = combine_visual_textual(frame_embeddings, text_input_ids) return fused_representation def combine_visual_textual(vis_emb, txt_id): pass # Placeholder for actual implementation details. video_data = ... # Preprocessed input data structure containing frames. result = extract_video_features(video_data) print(result.shape) ``` 上述代码片段展示了一个简单的例子说明怎样加载现成工具包里的组件并组合起来形成初步解决方案雏形。 ---
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值