GHashing: Semantic Graph Hashing for Approximate Similarity Search in Graph Databases图哈希

GHashing: 图数据库近似搜索
介绍了一种名为GHashing的技术,该技术利用神经网络为大规模图数据库提供近似相似性搜索解决方案。通过设计离线索引,并结合两次验证过程,此方法能有效应用于数百万级别的图数据集中。

文章标题:GHashing: Semantic Graph Hashing for Approximate Similarity Search in Graph Databases
文章来源: KDD '20: The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Virtual Event, CA, USA, August 23-27, 2020. ACM 2020
作者:Zongyue Qin Peking University Beijing, China qinzongyue@pku.edu.cn
Yunsheng Bai UCLA Los Angeles, CA, US yba@cs.ucla.edu
Yizhou Sun UCLA Los Angeles, CA, US yzsun@cs.ucla.edu

文章简介:
由于“基于图编辑距离的相似性搜索问题”中,使用“过滤+验证”的方法无法伸缩到大规模数据库(百万级别的,比如一个图数据集有500万个图数据)。作者提出了使用“神经网络”的方法,解决这个问题。具体的步骤主要分为两个阶段:离线阶段和在线阶段。在离线阶段,通过学习的方法,设计“离线索引”。 在线阶段,通过这个离线索引进行两次验证。本文和传统方法的主要区别:1. 不管数据量多大,都可以完成相似搜索任务。但是结果是近似的。2. 离线阶段使用“学习方法”, 学习出哈希函数构造离线索引。3. 构造理想的数据集。

个人觉得工作的不足之处:
使用“神经网络”的新方法解决大规模图数据中的相似性搜索问题,这个角度很新颖。但是问题是,“大规模数据”是如何产生的?文章分析了AIDS数据的特征:由于AIDS共有月4万个数据,那么共4*(4-1)/2=6万个图数据对。经过作者的计算,6万个图对中仅仅由千分之五(0.5‰),即仅30对之间的GED小于7。作者认为相似的图太少了,于是进行数据合成。构造的数据本来就不符合实际图集的特征,这种模拟的方法,适合图数据吗?

参考文献:

  1. 图卷积层[原文参考文献12]
  2. 图池化层[原文参考文献3]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值