PyExplore 2.0:基于可解释、近似和组合聚类的 SQL 查询推荐
1. 引言
随着数据量的增长、数据复杂性的提高以及用户对数据库内容的不熟悉,数据查询变得既复杂又耗时。用户在与数据集交互时,常常不清楚该提出什么样的查询。为解决这一问题,我们致力于设计一个不依赖查询日志的 SQL 查询推荐系统,提供直观且可解释的推荐,并通过近似推荐减少执行时间。
我们选择扩展 PyExplore,它是一个先进的 SQL 查询推荐框架,无需查询日志。用户提供初始 SQL 查询后,PyExplore 会生成带有增强 WHERE 子句的新 SQL 查询推荐。我们扩展了 PyExplore,新增了四种工作流,分别用于近似查询推荐、可解释查询补全、组合可解释和近似推荐,以及采样决策树工作流。
我们的贡献包括:
- 基于 PyExplore 提供四种新的工作流,以创建可解释和近似的查询推荐。
- 在三个开放数据集上进行全面评估,确定四种工作流生成的推荐质量、执行时间以及与完整工作流相比的加速效果。
2. 相关工作
查询推荐工作可从以下维度进行分类:
| 分类维度 | 具体内容 |
| ---- | ---- |
| 查询类型 | 结构化或非结构化查询 |
| 分析类型 | 使用查询日志与数据分析 |
| 查询设置 | 冷启动或热启动(有无用户先前查询) |
大多数查询推荐工作集中在搜索引擎的非结构化查询上,我们重点关注结构化查询。在分析类型方面,查询日志可用于挖掘频繁模式和查询依赖,或应用典型推荐策略。在没有查询日志的情况下,方法基于数据分析,如将初始用户查询或数据空
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



