cout<<https://pan.baidu.com/s/1wZH3N-7qUSwGCzCmEgTnAA
<<b38n<<endl
简介
1.1 结构和人类认知
结构就在我们身边:从基础的物理反应到最初的结构,如原子分子、器官、社交网络在到环境、太阳系和更多宇宙间跨越量级的例子。
结构化和复杂的环境上长久的进化塑造了人类的最初思维:一个高度优化的系统that适应于遍历这个世界,为了取得他的目标,并且去适应这个环境可能出现的最难遇见的变化——换句话说,人类是一种智慧体。
不仅我们周围的世界是结构丰富的,我们对世界的理解和我们的世界模型,也是高度结构化的:我们经常以概念、抽象和关系进行思考、推理和交流。我们可以从原始的知觉输入辨别物体、按照物体的组成和关系来理解视觉场景。举个“有翅膀的大象”的例子,我们可以轻松想象出这个组合的概念,尽管我们从未遇上这么一种生物。
我们是怎样定型这样的结构的呢?表示信息是怎么被结构化的有一个很自然的方法:把他看作是一个图。一个图是一种描述实体的集合,即节点;和描述他们之间两两关系,即边的数据结构,
随着现代科技和互联网的兴起,图到处都是:社交网络、万维网、街道图、搜索引擎利用的知识表示,甚至是化学分子都频繁地被表示成一组实体,以及实体上的关系。这种随处可见的图结构亟需有效的数学方法的发展——利用并学习这类结构化的信息,并且当我们达到这个目标的同时,这一路上学到的东西可能帮助我们更好地发展智慧体,就像我们人类这么做的一样。
1.2 人工智能和深度学习
理解人类认知的欲望带来了大量的科学准则。认知科学等等是人类认知领域里面最杰出的成果,包括物理底层的神经科学和数学方面的人工智能核心算法。
这篇论文基于机器学习,是人工智能的最主要分支。机器学习处理我们是怎么建立能从数据和经历里自动学习的系统、设计算法,和传统的设计算法执行序列恰恰是相反的。学习的问题通常通过设计一个符合的模型来解决的,并且这个模型需要具备扩展到新的数据和经历上。
传统上,许多机器学习算法是基于一些用提前定义好的过程来从原始数据里提取出的特征的集合。举例来说,这样的特征可能是自然语言句子里的词频统计或者图片里的像素数据。这种发展提取特征的过程我们叫做特征工程,在99年的SIFT类算法达到顶峰。
CNN\RNN都是inductive的
研究问题1:我们能把深度学习应用在大型的图结构节点分类任务上吗?
引出GCN和R-GCN
研究问题2:图神经网络能做路径预测和无监督节点表示学习吗?
引出GAE,无标注的节点表示,并且能用于路径预测
问题3:深度神经网络能像物理学中的力一样,推断出实体之间隐藏的关系和交互吗?
我们提出了神经关系推论(NRI)模型。NRI是一种基于GNN上的多重交互函数隐藏的可变(varyable)模型。每对结点被分配一个隐藏的变量,这个变量决定了他们之间的关系,因此这个模型可以被训练来辨别隐藏关系。我们描述了这种能力在物理系统和运动捕捉数据上,实际上NRI确实可以辨认隐藏关系并做出未来运动的精确预测。
研究问题4:我们怎样提高在序列数据在神经网路上的表现?
为了解决这个问题,我们提出CompILE模型,意思是”构成模仿学习执行”并且描述了一个无监督模型来发现任务段和隐藏任务表示在项目执行数据。
研究问题5:深层网络能通过与一种环境交互去学习来发现并建立实体和关系有效表示以及动作的影响吗?
这个问题直击什么才是通过与环境交互来学习一种结构模型的核心。constrastive learing比较学习。
Chapter2 背景
一个GNN把一个图的实例作为输入,节点被特征向量x相关,便也也可以与特征向量连接,我们把隐藏表示,点写作hi,边特征为hij。h=x初始化,这个图的结构决定了了接下来的信息传递和更新,下一步被执行并获得更新后的节点表示hi一撇。
expressive有表现力的
concurrent并存的;同时发生的
intractable 很难对付、很难处理
intergral 积分
inference 用模型去做预测
Chapter 3 GCN
我们把谱域上的图卷积定义为在傅里叶域上用滤波器filter去乘傅里叶变换后的x(信号),乘完之后再做一个傅里叶逆变换
这里的U是正则化拉普拉斯矩阵的特征向量矩阵,L=UAUT
经过UTX相当于做了一次图上的傅立叶变换我们可以把g这个对角阵看做是对L的特征值的函数变换,但采用矩阵分解的方式计算3.3计算复杂度太高
Z = softmax(AReLU(AXW)W)
里面两个W是用梯度下降训练出的网络权重。我们用内存可以容下的数据集进行批次的梯度下降。
图上的半监督学习
最近有大量的图半监督学习方法被提出,大部分都是用以下两种方法:直接图拉普拉斯正则话或是图embedding-based方法。
论文引用网络
我们使用了三个论文引用数据集:Citeseer,Cora,Pubmed.这些数据集对每一篇文章包括稀疏的词袋特征向量和一个文档之间的引用链。我们把引用关系当做是一个对称矩阵
3.7 讨论
之前基于图拉普拉斯正则化的模型被他们的假设:边能完全编码类的相似性。基于skip-gram的方法受到了多步流水线的约束使得他们的模型很难进行优化。
3.7.2 限制和未来工作
1、Memory Requirement
在当前的全批次梯度下降,内存的需求随着数据集的提高是线性的。我们已经展示了GPU的显存装不下大图,但用CPU还是一个可选项。小批次的stochastic随机梯度下降可以缓解这个问题。生成小批次的过程,然而对于一个规格严格的过程设计,需要考虑GCN的层数,因为有K层那K层的邻接点都要保存在内存里。未来对于大图的估计和采样很可能是必要的。
2、邻接点的权重调整
GCN模型代表着一个围绕中心的filter,所有的邻接节点的特征都要用同样的权重矩阵来进行聚集。事实上在text-GCN上已经修改了这里的临界点的权重。
3、有向图
天生无法解决。在relational GCN会被解决。
-wise 指在…级别
Chapter 4
解码器会重构图的连接结构,也就是从图的节点表示重构他的邻接矩阵。解码器会去判断两个节点是否会被连在一起。
4.2.1 图auto-encoder
一个无向图。解决路径预测的方法是介绍一个打分系统来判断连还是不连。高分的节点对被看作是需要连起来的。
encoder
GAE使用一个GNN,它用图的结构来处理一个节点特征的初始集来产生一个隐藏层的表示。用一个GNN基础的encoder是不错的因为他可以同时提取节点和图的特征,使这个模型可以用在inductive的设置上,当预测目标是图没见过的部分(这部分隐藏的z是没有数据的)
transdutive是不好的,来一个新数据就要重算,但效果好
inductive迁移性好,GAE就是inductive的
deepwalk是把一个图变成许多游走序列,然后用skip-gram施加在这些序列上。