利用 SQL 和机器学习模型进行数据探索
1. 引言
在数据探索领域,结合 SQL 和机器学习模型能够更高效地挖掘数据价值。例如,有如下 SQL 查询:
SELECT *
FROM Students
WHERE ParentsAbroad = T
除了该查询结果集中的元组外,另一个查询可能会返回对应于 Popa Andrei 的新元组。根据模型推测,Jane 可能也会对这个元组感兴趣,因为 Popa Andrei 可能也有较低的 GPA。这个元组是由机器学习模型支持的查询揭示出来的,这使得 Jane 可以研究鼓励父母与孩子留在国内的社会政策。
2. 数据探索方法概述
当用户 U 在关系数据库 D 上提出初始查询 Q 时,系统会返回以下内容:
- 查询 Q 的答案集 A。
- 一组模型 M,其中每个模型 m 能够区分答案集 A 中的元组和用户 U 不想要的元组。
- 一组性能指标结果 R,集合中的元素 r 对应于特定模型 m,并包含该模型的 8 个性能指标值。
- 一组最重要特征集 F,集合中的元素 f 对应于特定模型 m,包含使用排列特征重要性计算出的该模型最重要的特征。
2.1 选定的查询集合
我们关注的查询形式为:Q = πα(σC(T1 ▷◁… ▷◁Tm)),其中 T1 … Tm 是数据库 D 中的表,C 是由原子谓词通过 ∧、∨、¬ 连接而成的选择条件。我们用 T 表示连接操作 T1 ▷◁… ▷◁Tm 的结果,α 是 T 中属性的子集。
一个谓词的形式为
超级会员免费看
订阅专栏 解锁全文
1180

被折叠的 条评论
为什么被折叠?



