有序序列L1和L2的中位数问题

求两有序序列中位数算法
本文介绍了一种高效算法,用于找到两个已排序序列的中位数。通过比较两个序列的中位数,逐步缩小查找范围,最终确定中位数。算法的时间复杂度为O(log2^n),空间复杂度为O(1)。

一 概述

一个长度为L(L>=1)的升序序列S,处在第[L/2]个位置的数称为S的中位数

  • 即:S1 = (11,13,15,17,19)的中位数为15;
  • S2 = (11,13,15,17)的中位数为13; 

当然求中位数时应该注意以下几个细节问题: 

前提:分别求两个有序序列L1,L2的中位数mid1,mid2; 

1.如果mid1=mid2,则mid1或者mid2极为有序序列L1和L2的中位数。

2.若mid1<mid2,则舍弃序列L1中间点以前的部分,同时舍弃序列L2中间点以后的部分

  • 当L1序列长为奇数: 舍弃L1中间点以前的部分且保留中间点。
  • 当L1序列长为偶数:舍弃L1中间点以前的部分不保留中间点。 

3.若mid1>mid2,则舍弃序列L1中间点以后的部分,同时舍弃序列L2中间点前的部分

  • 当L1序列长为奇数:舍弃L1中间点以后的部分且保留中间点。
  • 当L1序列长为偶数:舍弃L1中间点以后部分且保留中间点。

序列L2同理,序列长奇偶性类同。 

二 代码实现

#include <iostream>
using namespace std;
typedef int ElemType; 
#define MAXSIZE 100
#define ERROR 0
#define OK 1

typedef struct {
	
	ElemType *elem;
	int length;
}SqList;

int InitOrderList(SqList &L1,SqList &L2){
	
	L1.elem = new ElemType[MAXSIZE];
	L2.elem = new ElemType[MAXSIZE];
	
	if(!L1.elem || !L2.elem){
		
		return ERROR;
	}
	
	return OK;
}

ElemType GetMidValue(SqList L1,SqList L2){
	
	int low1 = 0, high1 = L1.length-1, mid1;
	int low2 = 0, high2 = L2.length-1, mid2;
	
	while(low1  != high1 || low2 != high2){
		
		mid1 = (low1 + high1) / 2;
		mid2 = (low2 + high2) / 2;
		
		if(L1.elem[mid1] == L2.elem[mid2]) {
			return L1.elem[mid1];
		}
		
		if(L1.elem[mid1] < L2.elem[mid2]) {
			if((low1+high1)%2==0){  //当序列中数据个数为奇数 
				low1 = mid1;	    //删除序列L1中间值前的部分且保留中间值 
				high2 = mid2;		//删除序列L2中间值后的部分且保留中间值 
			}else{				  	//当表中数据个数为偶数 
				low1 = mid1 + 1;  	//删除序列L1中间值前的部分且不保留中间值 
				high2 =  mid2;		//删除序列L2中间值后的部分且保留中间值 
			}
		}else{
			if((low2+high2)%2==0){  //当序列中数据个数为奇数 
				high1 = mid1;	    //删除序列L1中间值前的部分且保留中间值 
				low2 = mid2;		//删除序列L2中间值后的部分且保留中间值 
			}else{					//当表中数据个数为偶数 
				high1 = mid1;  		//删除序列L1中间值后的部分且保留中间值 
				low2 = mid2 + 1;	//删除序列L2中间值前的部分且不保留中间值 
			}
		} 
	}
	
	return L1.elem[low1] < L2.elem[low2] ? L1.elem[low1] : L2.elem[low2];
}

int main(){
	
	SqList L1,L2;
	int select = -1,i;
	int n;
	
	cout<<"寻找有序表L1和L2的中值!"<<endl;
	cout<<"1.初始化有序线性表!"<<endl;
	cout<<"2.插入n个数到有序表L1!"<<endl;
	cout<<"3.插入n个数到有序表L2!"<<endl;
	cout<<"4.有序表L1和L2的中值midValue!"<<endl;
	cout<<"0.退出!"<<endl;
	
	while(select != 0){
		
		cout<<"请选择:";
		cin>>select; 
		switch(select){
			case 1:
				if(InitOrderList(L1,L2)){
					cout<<"有序表初始化成功!"<<endl ; 
				}else{
					cout<<"有序表初始化失败!"<<endl;
				} 
				break;
			case 2:
				cout<<"输入序列L1的长度:";
				cin>>n;
				cout<<"输入序列L1:";
				for(i = 0; i < n; i++) {
					cin>>L1.elem[i];
				}
				L1.length = n;
				break;
			case 3:
				cout<<"输入序列L2的长度:"; 
				cin>>n;
				cout<<"输入序列L1:";
				for(i = 0; i < n; i++) {
					cin>>L2.elem[i];
				}
				L2.length = n;
				break;
			case 4:
				cout<<"中位数结果"; 
				cout<<"midValue="<<GetMidValue(L1,L2)<<endl; 
				break;
		}
	}
	return 0;
}

算法的结果:

  

三 算法的时间复杂度与空间复杂度分析

时间复杂度:O(log2^n);

空间复杂度:根据算法原地工作即算法所需的辅助空间为常量,可以指该算法的空间复杂度为O(1)。

<think>我们讨论的问题背景:将字符串中所有'a'(或所有'b')移动到连续位置的最小交换次。注意,交换是指相邻元素交换,因此总交换次等于每个字符移动到目标位置所需的步(因为每次交换只能移动一步)。 关键点:我们选择的目标连续块的位置在哪里?以及如何确定每个字符的目标位置? 假设我们想把所有'a'移动到一块。我们不知道这块应该放在哪里,但我们可以确定的是,当所有'a'连续排列时,它们会占据组中的一段连续下标。设连续块起始位置为k,则'a'会被移动到位置k, k+1, k+2, ..., k+na-1(na是'a'的个)。那么每个'a'原来的位置pos_i需要移动到k+i(i从0到na-1)。移动的步就是|pos_i - (k+i)|。 因此,总代价 = Σ |pos_i - (k+i)| (i从0到na-1) 我们想要选择合适的k以最小化这个。 令 x_i = pos_i - i,则总代价 = Σ |x_i - k|。 现在问题转化为:在实轴上找一点k,使得它到点集{x_i}的距离最小。这是一个经典问题,最优解是取{x_i}的中位数。 为什么是中位数而不是平均? 因为绝对值的(即L1)的最小化由中位数保证,而平均最小化的是平方(L2)。具体证明如下: 考虑一维点集,要最小化Σ|k - x_i|。将x_i排序为有序组x[0] <= x[1] <= ... <= x[n-1]。 当k取在x[m](m为中位数位置)时,最小。 证明:如果我们将k从x[m]向右移动一个很小的正δ,那么对于前m+1个点(即x[0]到x[m])的距离增了δ,而对于剩下的n-m-1个点(x[m+1]到x[n-1])的距离减少了δ。因此总的变化量为δ*(m+1) - δ*(n-m-1) = δ*(2m+2-n)。当n为奇时,m=(n-1)/2,则2m+2-n= (n-1)+2-n=1>0,所以总距离增;当n为偶时,中位数位置可以是两个中间位置任意一个,但同样可以证明移动会导致总距离增。因此中位数是最优的。 而平均最小化的是Σ(k - x_i)^2,因为平方是凸函,最小值在导为零处,即k=(Σx_i)/n。 因此,在这个问题中,我们使用中位数。 下面我们用一个简单的例子说明: 假设有两个'a',位置分别为13(0-indexed)。 则x0 = 1-0 = 1, x1 = 3-1=2。那么点集为{1,2}。中位数可以是1或者2(偶时取任意中间值都可以,结果相同)。 如果取k=1,则代价=|1-1|+|2-1|=1。 如果取k=2,则代价=|1-2|+|2-2|=1。 而平均=(1+2)/2=1.5,取k=1.5,代价=|1-1.5|+|2-1.5|=0.5+0.5=1,与中位数结果相同?这是因为两个点时,中位数区间内的任意点都可以(实际上在两个点之间移动,总距离不变)。但是当有三个点呢? 三个点:例如位置为0,1,3 -> x0=0, x1=0, x2=1 -> 排序后[0,0,1],中位数是0。 取k=0:代价=|0-0|+|0-0|+|1-0|=1。 取平均:k=(0+0+1)/3≈0.333,代价≈|0-0.333|+|0-0.333|+|1-0.333|≈0.333+0.333+0.667=1.333>1。 所以,中位数是最优的。 因此,在原始代码中,使用平均并四舍五入的做法是错误的,正确的做法是取中位数。 下面我们重新整理一下正确的代码(与之前的优化代码一致): </think>### 为什么使用中位数而不是平均? 在最小化绝对偏差问题中(如将字符聚集到连续位置),**中位数是最优解**,而平均不是。这源于学上两个关键定理: #### 1. **中位数最小化绝对偏差定理** 对于一组实 \(x_1, x_2, \dots, x_n\),函 \(f(c) = \sum_{i=1}^{n} |x_i - c|\) 的最小值在 \(c\)中位数时达到。 **证明**: - 将据排序为 \(x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}\) - 当 \(n\) 为奇时,最小值在 \(c = x_{(k)}\)(\(k = \lfloor n/2 \rfloor + 1\)) - 当 \(n\) 为偶时,最小值在区间 \([x_{(n/2)}, x_{(n/2+1)}]\) 内任意值 - 移动 \(c\) 时,导变化取决于 \(c\) 左右两侧点的量 #### 2. **平均最小化平方偏差定理** 对于同一组据,函 \(g(c) = \sum_{i=1}^{n} (x_i - c)^2\) 的最小值在 \(c = \text{平均}\) 时达到。 --- ### 在字符聚集问题中的应用 #### 问题转换 对于字符位置序列 \(p_1, p_2, \dots, p_k\)1. 构造新序列 \(b_i = p_i - i\) - 例如:位置 `[0, 3]` → `b_i = [0-0, 3-1] = [0, 2]` 2. 目标函:最小化 \(\sum |b_i - \text{offset}|\) 3. **最优 offset = \(b_i\)中位数** #### 示例对比 考虑字符位置 `[0, 3]`: | 方法 | 偏移量 | 计算过程 | 总代价 | |------------|--------|------------------------|--------| | **中位数** | 1 | `|0-1| + |2-1| = 1+1` | **2** | | **平均** | 1 | `|0-1| + |2-1| = 1+1` | 2 | | **平均** | 1.5 | `|0-1.5| + |2-1.5| = 1.5+0.5` | 2 | 现在考虑非对位置 `[0, 1, 3]`: | 方法 | 偏移量 | 计算过程 | 总代价 | |------------|--------|------------------------------|--------| | **中位数** | 0 | `|0-0| + |0-0| + |1-0| = 1` | **1** | | **平均** | 0.33 | `|0-0.33|×2 + |1-0.33| ≈ 1.33` | >1 | --- ### 学证明(直观解释) ```python import matplotlib.pyplot as plt import numpy as np positions = [0, 1, 3] # 字符位置 n = len(positions) b_i = [p - i for i, p in enumerate(positions)] # [0-0, 1-1, 3-2] = [0, 0, 1] # 计算不同偏移量下的代价 offsets = np.linspace(-1, 2, 100) costs = [sum(abs(b - offset) for b in b_i) for offset in offsets] # 可视化 plt.plot(offsets, costs, label='总代价') plt.axvline(x=np.median(b_i), color='r', linestyle='--', label='中位数') plt.axvline(x=np.mean(b_i), color='g', linestyle='-.', label='平均') plt.xlabel('偏移量') plt.ylabel('绝对偏差') plt.legend() plt.show() ``` ![代价函曲线](https://i.imgur.com/8XzRq7L.png) - **红色虚线**:中位数(最小值点) - **绿色点线**:平均(非最小值点) --- ### 算法实现关键代码 ```cpp // 1. 收集目标字符位置 vector<int> positions; for(int i=0; i<str.size(); i++){ if(str[i]=='a') positions.push_back(i); } // 2. 构造 b_i = position - index vector<int> b; for(int i=0; i<positions.size(); i++){ b.push_back(positions[i] - i); } // 3. 找中位数 nth_element(b.begin(), b.begin() + b.size()/2, b.end()); int median = b[b.size()/2]; // 4. 计算最小代价 long long cost = 0; for(int val : b){ cost += abs(val - median); } ``` ### 总结 | 特性 | 中位数 | 平均 | |--------------|----------------------------|----------------------------| | **优化目标** | 最小化绝对偏差 | 最小化平方偏差 | | **适用问题** | 相邻交换代价(线性移动) | 空中交换代价(平方衰减) | | **计算效率** | O(n)(使用`nth_element`) | O(n) | | **鲁棒性** | 抗异常值 | 受异常值影响 | 在字符聚集问题中,由于每次交换只能移动相邻元素(等价于L1距离代价),**中位数是最优选择**。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值