演讲嘉宾:崔鹏,海能达数据库团队负责人、PostgreSQL ACE、PG 分会哈尔滨用户组主席。
随着人工智能与机器学习的快速发展,数据库不仅作为数据存储与管理的核心基础设施,也逐渐成为机器学习任务执行的重要支撑平台。然而,传统数据库在存储结构选择、样本数据筛选、连接顺序优化等方面仍存在不足,难以满足机器学习在效率与精度方面的要求。为此,本文围绕 PostgreSQL 内的机器学习应用展开,提出了一系列关键智能算法。
研究绪论
研究背景和意义
- 人工智能时代的机遇与挑战:随着人工智能时代的到来,机器学习应用的领域越来越广泛。然而,伴随着数据爆炸的时代,机器学习在训练数据规模和计算等问题上正面临诸多严峻的挑战。
- 数据管理技术的局限性:现有的数据管理技术无法直接为机器学习数据提供智能的存储,现有数据选择方法不能很好地满足机器学习样本数据的概要提取需求,目前尚无高效的连接顺序选择算法等。
- 数据库内机器学习的优势:为了推动数据库内机器学习的发展,使智能数据管理技术赋能机器学习,提出了支撑数据库内机器学习的关键智能算法,包括基于集成学习的样本数据行列存储决策算法、基于聚类抽样的样本数据选择算法和基于强化学习的连接顺序推荐算法。
国内外研究现状
- 数据存储技术研究现状:现有研究重点关注多类型和多版本数据的存储,而存储结构对于机器学习任务的执行也会产生很大影响。
- 数据选择技术研究现状:现有方法通常采用抽样或者聚类等方式,虽能缩小原始数据集的尺寸,但极有可能漏掉许多与模型有关的数据,造成模型精度下降。
- 数据表连接技术研究现状:现有研究为实现智能连接提供了思路,即使用机器学习优化的数据库技术来赋能机器学习任务,同时轻量级编码和快速的模型训练也是需要纳入考虑的问题。
主要研究内容
- 基于集成学习的样本数据行列存储决策算法:研究支撑数据库内机器学习的存储结构智能决策算法,解决存储结构自动选择问题。
- 基于聚类抽样的样本数据选择算法:研究支撑数据库内机器学习的智能数据选择算法,解决机器学习训练前的数据选择问题。
- 基于强化学习的数据表连接顺序推荐算法:研究支撑数据库内机器学习的智能连接顺序推荐算法解决特征选择问题。
人工智能数据库的作用
人工智能数据库不仅仅是信息的存储库,也是一个动态的、专门的系统,它精心设计,以满足人工智能和机器学习应用程序的复杂需求。人工智能数据库具有高效存储、组织和检索数据的能力为构建、完善和部署开创性的人工智能模型提供了基础。
机器学习在数据库中的应用需求
- 数据处理需求:随着数据量的增长,机器学习需要高效的数据处理和存储。数据库可提供稳定的数据存储和快速的数据读写能力。
- 模型训练需求:实时预测要求快速响应,数据库可结合机器学习模型实现实时数据处理和预测,满足业务的及时性要求。
- 实时预测需求:机器学习需要有效的数据管理,包括数据清洗、特征提取和版本控制等。数据库可提供全面的数据管理解决方案。
- 数据管理需求:数据库内进行模型训练可减少数据传输开销,提高训练效率,同时,利用数据库的并行计算能力加速训练过程。
现有技术在 PostgreSQL 内机器学习中的局限性
- 数据存储问题:现有的数据管理技术无法直接为机器学习数据提供智能存储,不能根据工作负载推荐合适的存储结构,影响执行效率。
- 数据选择问题:现有数据选择方法不能很好地满足机器学习样本数据的概要提取需求,可能遗漏重要信息,导致模型精度下降。
- 连接顺序问题:目前尚无高效的连接顺序选择算法,多表连接操作效率低下,增加了机器学习任务

最低0.47元/天 解锁文章
284

被折叠的 条评论
为什么被折叠?



