冰山查询Iceberg query

本文介绍了数据仓库中的一个重要概念——冰山查询。通过一个销售数据的例子,详细解释了如何使用SQL的HAVING子句来筛选出特定条件下的数据,即那些购买数量超过一定阈值的顾客-商品对。此类查询常用于数据概况分析、数据质量检查和购物篮分析等场景。

在数据仓库领域有一个概念叫Iceberg query,中文一般翻译为“冰山查询”。冰山查询在一个属性或属性集上计算一个聚集函数,以找出大于某个指定阈值的聚集值。

以销售数据为例,你想产生这样的一个顾客-商品对的列表,这些顾客购买商品的数量达到3件或更多。这可以用下面的冰山查询表示:

Select      P.cust_ID, P.item_ID, SUM(P.qty)

From          Purchase P

Group by   P.cust_ID, P.item_ID

Having     SUM(P.qty)>=3

这种在给出大量输入数据元组的情况下,使用having字句中的阈值来进行过滤的查询方法就叫做冰山查询。输出结果可以看作“冰山顶”,而“冰山”是输入数据。

这种冰山查询在数据仓库的数据概况分析阶段、数据质量检查阶段和数据挖掘的购物篮分析中都经常使用。而且,冰山查询也是面试中出现频率非常高的一道题,经常用来检测SQL能力。

转载于:https://my.oschina.net/Tristan/blog/42919

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值