In-database分析介绍

最新推荐文章于 2023-12-26 16:20:37 发布

原创

最新推荐文章于 2023-12-26 16:20:37 发布 · 579 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #数据库 #大数据 #编程语言 #python

本文介绍了In-database分析的概念及其重要特性，包括易用性、本地性、可扩展性和通用性。文章以SQLFlow、Spark SQL、BigQuery ML和Apache MADlib为例，详细阐述了四种不同的架构类型及其对In-database分析特性的支持，并分析了各自的优点和适用场景。SQLFlow侧重易用性和通用性，Spark SQL注重SQL在AI引擎上的应用，BigQuery ML提供基于SQL的内置算法，而MADlib利用UDA实现全面的机器学习支持。

获得技术资料内容，请访问Greenplum中文社区网站

今年QCon大会，蚂蚁金服发布了开源SQLConnectAI产品SQLFlow，旨在“降低人工智能应用的技术门槛，让技术人员调用AI像SQL一样简单”。 SQLFlow的思想最早可以追溯到2005年，当时Thomas Tileston提出了In-database分析，将数据库与数据挖掘、机器学习有机地统一了起来。 In-database分析通过扩充SQL的能力，降低了企业应用机器学习技术的门槛，同时解决了数据在不同系统间移动所产生的一系列问题。

In-databse分析主要具有以下特性：

1. 易用性，降低机器学习门槛，掌握SQL的技术人员即可完成大部分的机器学习模型训练及预测任务，掌握TensorFlow和Scikit-learn的技术人员比掌握SQL的技术人员少很多。

2. 本地性，减少数据的移动，存储在数据库中的数据在原地进行机器学习建模和推理，提高了分析效率同时，避免了数据移动过程中存在的安全问题，减少了team间沟通成本，以及建造单独数据分析基础设施的IT成本。

3. 可扩展性，单机机器学习到集群机器学习的扩展

4. 通用性，即支持的机器学习算法的丰富性。

从2005年Thomas Tileston提出了In-database分析至今，已经涌现出很多In-database分析的产品，它们部分或全部支持In-database分析的特性，我们将主要的产品和时间线总结在图1。