Neo4j新发布监督式机器学习工作流
作者:Amy Holder, Alicia Frame from Neo4j
就在几个月前,我们宣布了在Neo4j数据库中具有图嵌入和ML模型目录的、基于图的机器学习。 对于大多数人(当然也包括我们)来说,将最先进的机器学习应用于图非常令人兴奋,我们也为社区部署的既有创意又丰富的应用感到特别振奋。
今天,我们宣布推出GDS 1.5版本,该版本将为您带来更多您喜欢的功能:新算法、更多的机器学习功能以及更简易高效的生产环境部署!
在最新版的Neo4j图数据科学(GDS)库中,我们提供了许多功能,同时也对部分功能进行了升级,包括两种新算法和针对最受欢迎的算法的性能提升,以及针对大型图数据的、优化的内存格式以减少内存消耗。
在此版本中,我们非常高兴为您带来ML工作流,以监督式的机器学习来预测节点标签和缺失的关系,以及用来在生产环境中实现更好协作。
使用GDS v1.5,您可以创建端到端的模型构建管道,以利用高级ML技术并不断更新图形,所有这些在Neo4j数据库中就可以实现!
Neo4j中的受监督的ML工作流
让我们逐步介绍一下Neo4j现在可以实现的工作流:结合图算法和图嵌入进行高质量的特征工程、训练监督的ML模型以“填补”缺失的节点标签或空白的关系,然后保存您的模型并与您的团队共享。
图原生特征工程
一旦将数据导入Neo4j,您要做的第一件事就是使用图算法和图嵌入来探索数据,识别趋势和异常值,并生成可用于您的预测模型的高质量特征 。在最新版本中我们引入了图嵌入,当您不确定所要寻找的确切内容时可以使用图嵌入。
小提示:图嵌入不是人类可读的,就像通过运行传统图算法可能获得的社区ID或中心度得分一样。 它是代表图各部分的一组数字,并且格式正好可用于机器学习算法。
在使用算法结果丰富了图形之后(例如中心度或社区成员身份),或者使用嵌入生成了ML形式,接下来就该训练模型了!
在Neo4j中训练预测模型!
对图型进行预测是做图数据科学的主要动机之一:图算法通过生成包含丰富信息的特征来帮助您做出更好的预测,而预测模型则可以通过预测缺失的节点标签、属性,或预测缺失、不可观察的关系来丰富您的图数据。
借助Neo4j 1.5版本,我们使您可以在Neo4j中训练监督、预测性的模型,从而进行节点分类和链接预测。
这是如何实现的?
- 确定要构建的模型的类型--节点分类模型以预测缺少的标签或类别,或者链接预测模型以预测图形中的关系。
- 确定要用于预测的属性。
- 接下来Neo4j将数据分成训练集和测试集,构建各种模型,评估结果,然后返回性能最佳的预测模型。
- 将此训练有素的模型应用于新数据(图形中未观察到的部分或新信息),以预测缺失的信息,并为这些预测提供置信度得分。
举个例子,假设您有一个零售交易图:客户及其购买的物品和服务。 您可以使用节点分类来预测哪些客户最有可能成为回头客或者选择不再使用您的服务。还有,您可以使用链接预测来预测客户与他们将来会购买的商品之间的新关系并给予推荐。
通过允许用户在Neo4j内训练和应用模型,现在可以提炼新的事实并持续不断的增强您的图。
在Neo4j中固化和共享ML模型
现在,还可以将某些ML模型固化在Neo4j中,以便将它们存储在数据库中,并在重新启动后加载,在团队之间共享模型。
训练模型后,您可以在模型目录中看到它们,该目录列出了每个可用模型,并提供了有关模型类型、配置数据和特定于模型的详细信息(元数据)。
训练完所需的模型并希望保留之后,GDS Enterprise Edition用户可以存储模型,将它们保存到磁盘上,在数据库重新启动后可用。您还可以加载和使用任何现有的存储模型(无需重新训练)。
用户还可以发布他们的模型,并与团队成员共享,因此任何使用相同数据库应用场景的同事都可以将这些模型应用于他们的数据。
使用GDS 1.5,您可以在Neo4j数据库中训练节点分类或链接预测模型,对其进行固化、管理、存储并与您使用图原生定制代码的团队进行共享。
结束语
到目前为止,只有少数几家领先的大科技公司有资源和能力来利用基于图的高级ML技术。 Neo4j的Graph Data Science是第一个也是唯一一个商用的企业级图原生ML产品。
如果您想了解更多有关最新的有监督的ML工作流的信息,请注册我们的在线研讨会“有监督的图机器学习“,3月11日在线进行,我们将通过展示范例解答您的疑问。
要获得GDS库的最新信息,请访问我们的下载中心或我们的GitHub库。