图神经网络的未来:技术挑战与研究展望
在Web搜索与数据挖掘会议(WSDM)上,某中心高级首席科学家George Karypis就图神经网络(GNN)这一热门研究领域发表主题演讲。GNN能够将图中的信息表示为向量,供其他机器学习模型使用。
图神经网络的基本原理
图由节点(通常用圆圈表示)和边(连接节点的线段)组成。图的表达能力无限:节点可以表示分子中的原子,边表示原子间的键;在知识图中,节点可以表示实体,边表示实体间的关系;在推荐引擎中,节点可以同时表示客户和产品,边可以表示产品间的相似性以及客户购买行为。
GNN的工作流程与标准机器学习类似:首先预训练GNN模型学习计算小分子等图结构的表示,然后将该表示作为下游模型的输入,预测分子的各种物理化学性质。
关键技术挑战
表示范围与过度平滑问题
计算节点表示是一个迭代过程:首先计算每个节点的表示,然后根据节点先前表示及其直接邻居的表示更新每个节点的表示。每次迭代都将表示范围扩展一跳。
但持续迭代会导致过度平滑(oversmoothing)问题:“如果不断这样做,几乎每个节点都会变得相同。对于来自自然图的网络,这通常在很少几步后就会发生。就像社交网络和凯文·贝肯游戏一样,不需要很多跳就能覆盖大部分节点。”
近一两年,大量研究关注如何从远距离邻居获取信息,同时避免因过度平滑而导致所有节点表示相同。
数据表示方式的影响
另一个重要研究问题是如何以图形式表示数据,因为这显著影响GNN性能。
“在某些应用领域,我们已经成功开发了准确的基于GNN的模型,例如底层数据已经是图结构的领域(如小分子、大分子或知识图)。但对于可以通过多种方式建模为图的数据领域,通常需要大量试错才能开发成功的基于GNN的方法,因为需要考虑图与GNN模型之间的相互作用。”
以关系数据库为例,不同的表结构设计会导致图中节点距离的巨大差异:从一跳距离变为三跳甚至更多跳,这会在GNN聚合信息时产生完全不同的拓扑结构。
未来发展方向
能够容忍底层数据建模变化的GNN模型将大大减少开发成功基于GNN方法所需的工作量。GNN是目前深度学习研究中最热门的领域之一,正在越来越多领域和应用中得到使用,但该领域仍处于早期阶段,“仍有许多我们不知道的基础理论问题需要理解”。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

17万+

被折叠的 条评论
为什么被折叠?



