1029 Median (25分)(一个字短!)

本文介绍了一种高效算法,用于查找两个已排序数组的中位数。通过逐个比较并计数,该算法能在O(log(min(m, n)))时间内找到中位数,其中m和n分别是两个数组的长度。

1029 Median (25分)

分析

为了节省时间,先将第一个数组全部输入,而第二个数组一边输入一边找中位数,cnt记录在中位数之前一共有多少个数字,cnt_i用于计数在中位数之前,有多少个数字是属于第一个数组的,cnt_j用于计数在中位数之前有多少个数字是属于第二个数组的,当cnt_i+cnt_j=cnt时,表明中位数已经找到。
当cnt_i为n或者cnt_j为m,则表示第一个数组或者第二个数组中的元素全部位于中位数之前。
当cnt_i+cnt_j=cnt时,若cnt_i为n,则中位数为b,若cnt_j为m,则中位数为a[cnt_i],若cnt_i<n且cnt_j<m,则中位数为b和a[cnt_i]中较小的那一个。

代码

#include<iostream>
using namespace std;
int n, m, cnt, cnt_i = 0, cnt_j = 0;
long int a[200010], b;
int main() {
 scanf("%d", &n);
 for (int i = 0; i < n; ++i)scanf("%ld", &a[i]);
 scanf("%d", &m);
 if (m)scanf("%ld", &b);
 cnt = (m + n) / 2 + (m + n) % 2 - 1;
 while (cnt_i + cnt_j < cnt) {
  if (cnt_i < n && cnt_j < m) {
   if (b >= a[cnt_i])++cnt_i;
   else {
    scanf("%ld", &b);
    ++cnt_j;
   }
  }
  if (cnt_i == n)++cnt_j;
  if (cnt_j == m)++cnt_i;
 }
 if (cnt_i < n && cnt_j < m)printf("%ld", a[cnt_i] < b ? a[cnt_i] : b);
 else if (cnt_i == n)printf("%ld", b);
 else printf("%ld", a[cnt_i]);
 return 0;
}
<think> 我们正在讨论SQL中的中位数(MEDIAN)和位数(以四位数为例,即25%和75%位数)之间的关系和区别。用户的问题是:SQL中median函数与另外两个位数的效果是否相同? 首先,我们需要明确: 1. 中位数(MEDIAN)是位数的一种特例,它等同于50%位数(即第二个四位数)。 2. 位数(Quantile)是指将一个随机变量的概率布范围为几个等份的数值点。常用的有四位数(25%、50%、75%)、百位数等。 因此,从概念上讲: - MEDIAN 就是 50%位数。 - 而另外两个位数(通常指25%和75%位数)与中位数不同。 但是,在SQL中,不同的数据库系统对中位数和位数的支持情况不同,并且实现方式也可能不同。 根据引用[1]中提到,窗口函数中有`median()`函数,但并不是所有数据库都原生支持。而位数函数通常以`percentile_cont`(连续位数)或`percentile_disc`(离散位数)或`percentile_approx`(近似位数)等形式出现。 在Hive中(引用[2][3])提供了`percentile`和`percentile_approx`函数用于计算位数。 因此,我们可以这样回答: - MEDIAN函数的效果等同于使用50%位数(即`percentile_cont(0.5)`或`percentile(0.5)`)。 - 而另外两个位数(25%和75%)则是不同的位点,效果不同。 但是,注意:由于数据布的不同,中位数和位数的计算方式(特别是当位数点不在具体数据点上时)可能有不同的处理方法(如插值法),所以即使50%位数在概念上等于中位数,不同的函数实现(比如`median`和`percentile_cont(0.5)`)在同一个数据库系统中可能采用相同的算法,但在不同数据库系统中可能有差异。 总结: 1. 在数学定义上,中位数就是50%位数。 2. 在SQL中,如果数据库同时支持`median`和位数函数(如`percentile_cont`),那么使用`median()`和`percentile_cont(0.5)`应该得到相同的结果。 3. 另外两个位数(25%和75%)与中位数(50%)是不同的统计量,它们的效果不同。 所以,回答用户的问题:MEDIAN函数与另外两个位数(25%和75%)的效果是不同的,但与50%位数的效果相同。 下面我们详细说明。 </think>### SQL中`MEDIAN`函数与位数函数的关系解析 #### 一、核心关系:包含性 **`MEDIAN`是位数的特例**,在数学定义上: $$ \text{MEDIAN} = Q_2 = P_{50} $$ 即中位数($\text{MEDIAN}$)本质上就是**50%位数**(第二四位数$Q_2$或第50百位数$P_{50}$)[^1][^3] #### 二、函数效果对比 | 函数类型 | 典型函数名 | 计算目标 | 效果等价性 | |----------------|---------------------------|-----------------------|------------------------| | **中位数函数** | `MEDIAN()` | 50%位数($Q_2$) | ⚠️ **仅等于$Q_2$** | | **位数函数** | `PERCENTILE_CONT(0.5)` | 50%位数($Q_2$) | ✅ 完全等同`MEDIAN` | | | `PERCENTILE_CONT(0.25)` | 25%位数($Q_1$) | ❌ 不同 | | | `PERCENTILE_CONT(0.75)` | 75%位数($Q_3$) | ❌ 不同 | | | `PERCENTILE_APPROX()` | 近似位数 | ⚠️ 近似等价 | #### 三、关键差异点 1. **计算范围不同** - `MEDIAN`固定计算50%位置 - 位数函数可计算**任意百比位置** ```sql -- 计算所有四位数 SELECT PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY price) AS Q1, PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY price) AS median, -- 等同MEDIAN PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY price) AS Q3 FROM products; ``` 2. **算法实现差异** - `MEDIAN`通常采用**精确排序法**($O(n \log n)$复杂度) - `PERCENTILE_APPROX`使用**近似算法**(如等频桶)[^2][^3] ```sql /* Hive示例:近似计算中位数 */ SELECT PERCENTILE_APPROX(price, 0.5) FROM sales; ``` 3. **结果精度差异** | 场景 | `MEDIAN`/`PERCENTILE_CONT` | `PERCENTILE_APPROX` | |--------------------|----------------------------|----------------------| | 小数据集(≤10万) | 精确值 | 可能有误差(~1%) | | 大数据集(>100万) | 计算成本高 | 高效但近似 | | 布式计算(Hive等) | 不推荐使用 | 首选方案[^4] | #### 四、典型应用场景选择 1. **需精确中位数时** ```sql -- 方案1:专用MEDIAN函数(Oracle等) SELECT MEDIAN(salary) FROM employees; -- 方案2:位数函数等效实现 SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY salary) FROM employees; ``` 2. **需多位数析时** ```sql /* 析薪资布(含中位数) */ SELECT PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY salary) AS Q1, PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY salary) AS median, PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY salary) AS Q3 FROM employees; ``` 3. **大数据集高效计算** ```sql -- Hive/Spark场景使用近似计算 SELECT PERCENTILE_APPROX(salary, ARRAY(0.25, 0.5, 0.75), 1000) FROM big_data_table; ``` > 💡 **选择建议**: > - 仅需中位数 → 优先用`MEDIAN`(更简洁) > - 需完整四析 → 用位数函数 > - 超大数据集 → 用`PERCENTILE_APPROX`[^3][^4] #### 五、可视化对比 ```mermaid graph TD A[位数函数] --> B[25%位数 Q1] A --> C[50%位数 MEDIAN] A --> D[75%位数 Q3] C --> E[精确算法] C --> F[近似算法] E --> G[PERCENTILE_CONT] F --> H[PERCENTILE_APPROX] ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值