GNN应用于sg2im

GNN在Scene Graph到图像生成中的应用
本文探讨了如何使用图神经网络(GNN)来生成图像,特别是从场景图(Scene Graph)到图像的转换过程。GNN帮助模型理解和保留复杂句子的逻辑结构,从而更好地生成对应图像。研究中,GNN先将句子映射为图结构,然后通过空域网络处理,计算图像布局。接着,利用GNN输出的特征预测物体边界框和形状,经级联细化网络(CRN)细化图像。虽然在某些量化指标上可能不如基于GAN的方法,但GNN方法生成的图像更符合人类认知,特别是在处理复杂句子时表现优越。
部署运行你感兴趣的模型镜像

Image Generation from Scene Graphs

Summary

图结构作为句子映射到图像的中间体,使含有多物体的句子的逻辑结构能够较完整地保留,从而使得模型能够理解复杂句子并生成相应的图像

首先将sentence用人工定义或预训练网络的方式映射为图结构,图结构经过一个GNN空域网络,使用GNN输出的向量计算出图像布局(scene layout),再由CRN细化

Research Objective

让CNN能够理解复杂句子并生成更准确的图像.

Problem Statement

目前sg2im领域的SOTA模型大多以GAN网络为基础,GAN网络的优势在于能够理解简单的句子并且生成的图像边缘较为细致,但模型生成的图像很难用量化的标准衡量,因此即使复杂句子经过模型输出的图像十分抽象以致于无法分辨物体,依然能有较高的性能指标.

Method(s)

网络主体分为四个部分

  • Scene Graph. 输入为图结构,第一部分使用预定义或预训练的嵌入网络层将图结构转化为向量,类似于nlp领域的词向量算法
  • Graph Convolution Network. 论文中采用GNN空域模型的思路, 对于每个节点的入度和出度有Vis={gs(vi,vr,vj):(oi,r,oj)∈E}Vio={go(vj,vr,vi):(oj,r,oi)∈E} \begin{aligned} &V_{i}^{s}=\left\{g_{s}\left(v_{i}, v_{r}, v_{j}\right):\left(o_{i}, r, o_{j}\right) \in E\right\}\\ &V_{i}^{o}=\left\{g_{o}\left(v_{j}, v_{r}, v_{i}\right):\left(o_{j}, r, o_{i}\right) \in E\right\} \end{aligned} Vis={gs(vi,vr,vj):(oi,r,oj)E}Vio={go(vj,vr,vi):(oj,r,oi)E}对于每条边有vr′=gp(vi,vr,vj)v_{r}^{\prime}=g_{p}\left(v_{i}, v_{r}, v_{j}\right)vr=gp(vi,vr,vj), 因此每个卷积层涉及三个维度上的计算
  • Scene Layout. GNN输出为句子中每个物体的特征向量, 而要生成图像还需要将特征从图域映射到图像域. 图结构中每个节点对应的特征向量需要分别经过对应的Object layout网络从而预测每个物体的边界矿(bbox)和形状(mask), 最后叠加得到粗略图像
  • Cascaded Refinement Network. 粗略图像经过CRN细化边缘
  • Discriminators. 使用对抗生成网络训练一对判别器DimgD_{i m g}DimgDobjD_{obj}Dobj, 判断生成的目标与图像是否真实 一个判别器的目标是最大化目标函数LGAN=Ex∼preal log⁡D(x)+Ex∼pthe log⁡(1−D(x))\mathcal{L}_{G A N}=\underset{x \sim p_{\text {real }}}{\mathbb{E}} \log D(x)+\underset{x \sim p_{\text {the }}}{\mathbb{E}} \log (1-D(x))LGAN=xpreal ElogD(x)+xpthe Elog(1D(x))
  • Training. 损失函数包含六部分, Box(定位损失), Mask(形状损失), Pixel(不明), DimgD_{i m g}Dimg(图像真实度), DobjD_{obj}Dobj, LACobj(目标真实度)\mathcal{L}_{A C}^{o b j}(目标真实度)LACobj()(目标分类损失)

Evaluation

在VG和COCO-STUFF上训练, 指标上不如基于GAN的SOTA, 但作者指出指标不合理, 最后结果由网民选票得出优于SOTA

Conclusion

作者应用GNN使得模型能够保留图像中多个物体的位置关系, 从而使生成的图像更符合人的认知, 相比于GAN方法:优势在于能够理解复杂的句子,劣势在于图像边缘较为粗糙

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

### 图神经网络 (GNN) 的应用场景和领域 #### 社交媒体分析 社交媒体平台中的关系可以被建模成图结构,其中用户作为节点,连接用户的边代表社交联系。通过应用 GNN 可以有效预测链接、推荐好友以及检测社区群组[^2]。 #### 推荐系统 在电子商务网站上,商品之间的关联性和顾客购买行为能够形成复杂的交互网状结构。利用 GNN 技术可以从这些复杂的关系中提取特征并用于个性化产品推荐服务,提高用户体验满意度的同时增加销售额[^1]。 #### 生物信息学 蛋白质相互作用网络(PPI)、基因调控路径等生物学现象天然适合用图形来描述。借助于 GNN 方法可以帮助科学家们更好地理解细胞内分子间的动态变化过程及其功能影响因素,从而加速药物研发进程[^3]。 #### 自然语言处理(NLP) 依存句法树是一种典型的语法解析结果形式之一,在此之上构建起来的任务如语义角色标注(SRL),命名实体识别(NER)都可以看作是对文本序列所对应的抽象依赖图的学习问题;而对话系统的多轮次上下文管理同样涉及到不同话语单元间逻辑连贯性的捕捉,这些都是 GNN 发挥优势的地方。 #### 物流运输优化 物流配送路线规划本质上是一个寻找最短路径的问题,当考虑货物装载量限制条件下的车辆调度时,则会演变成更加棘手的组合优化难题。此时引入带有属性标签的地图路网模型配合高效的 GNN 算法求解器便能显著提升解决方案的质量与效率。 ```python import torch_geometric.transforms as T from torch_geometric.datasets import Planetoid dataset = Planetoid(root='/tmp/Cora', name='Cora', transform=T.NormalizeFeatures()) print(f'Dataset: {dataset}:') ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值