第 9 章 中位数和顺序统计量

本文探讨如何在包含n个互异元素的集合中,以线性时间复杂度求解第i个顺序统计量,包括最小值和最大值。介绍了RANDOMIZED-SELECT和SELECT算法,前者在期望时间O(n)内找到中位数,后者保证最坏情况下的线性时间复杂度。中位数定义为集合的下中位数,当n为偶数时,位于i=n/2和i=n/2+1位置。算法通过递归划分和中位数的确定来高效解决问题。

  在一个由n个元素组成的集合中,第i个顺序统计量是该集合中第i小的元素。例如,在一个元素集合中,最小值是第 1 个顺序统计量,最大值是第n个顺序统计量(i=n)。用非形式化的描述来说,一个中位数是它所属集合的“中点元素”。当n为奇数时,中位数是唯一的,位与i=(n+1)/2.当n为偶数时,存在两个中位数,分别位与i=n/2和i=n/2+1.因此,如果不考虑n的奇偶性,中位数总是出现在i=⌊(n+1)/2⌋处(下中位数)和i=⌈(n+2)/2⌉处(上中位数)。本书中所用的中位数都是指下中位数。
  本章将讨论从一个有n个互异的元素构成的集合中选择第i个顺序统计量的问题。假设集合中的元素都是互异的,将这一问题形式化定义为如下的选择问题
  输入:一个包含n个(互异的)的数的集合A和一个整数i,1<= i <= n.
  输出:元素x∈A,且A中恰好有i-1个其他小于小于它。
  我们可以利用堆排序和归并排序在O(nlgn)时间内解决这个问题,本章介绍一些更快的方法。

9.1 最小值和最大值

下面的程序中,我们假设该集合存放在数组A中,且A.length=n
MINIMUM(A)

min = A[1]
for i = 2 to A.length
    if min > A[i]
        min = A[i]
return min

为了确定最小值,必须要做n-1次比较。因此从所执行的比较次数来看,算法MINMUM是最优的。
同时找到最小值和最大值
分别独立地找出最小值和最大值,共需2n-2次比较
事实上,我们只需要最多3⌊n/2⌋次比较就可以同时找到最小值和最大值。具体方法是记录已知的最小值和最大值,对输入元素成对地进行处理。首先将一对输入元素相互比较,然后把较小的与当前最小值比较,较大的与当前最大值比较。这样对每两个元素共需3次比较。
如果n是奇数,就把最小值和最大值的初始值都设为第一个元素的值,然后成对处理余下的元素。如果n是偶数,就对前两个做一次比较,然后成对处理。

9.2 期望为线性时间的选择算法

  一般选择问题看起来要比找最小值这样的问题更难,但是这两个问题的渐近运行时间都是θ(n)。本节介绍一种解决选择问题的分治算法。RANDOMIZED-SELECT算法以快速排序算法为模型,将输入数组进行递归划分,与快速排序不同的是,快速排序会递归处理划分的两边,而RANDOMIZED-SELECT只处理划分的一边。这一差异会在性能分析中体现出来:快速排序的期望运行时间是θ(nlgn),而RANDOMIZED-SELECT的期望运行时间为θ(n)。这里,假设输入数据都是互异的。
  RANDOMIZED-SELECT利用了7.3节介绍的RANDOMIZED-PARTITION过程。与RANDOMIZED-QUICKSORT一样,它的部分行为是由随机数生成器的输出决定的,所以RANDOMIZED-SELECT也是一个随机算法。以下是伪代码,它返回数组A[p..r]中第i小的的元素。
RANDOMIZED-SELECT(A, p, r, i)

if p == r
    return A[p]
q = RANDOMIZED-PARTITION(A, p, r)
k = q-p+1
if i == k
    return A[q]
else if i < k
    return RANDOMIZED-SELECT(A, p, q-1, i)
else return RANDOMIZED-SELECT(A, q+1, r, i-k)

  RANDOMIZED-SELECT的最坏情况运行时间为θn2),期望运行时间为O(n)。得出结论:假设所有元素都是互异的,在期望运行时间内,可以找到任一顺序统计量,特别是中位数。

9.3 最坏情况为线性时间的选择算法

  像RANDOMIZED-SELECT一样,SELCT算法通过对输入数组的递归划分找出所需元素,但是,在该算法中能够保证得到对数组的一个好的划分。SELECT使用的也是快速排序算法的确定性划分算法PARTITION。但做了修改,把划分的主元也作为输入参数。
  通过执行下列步骤,算法SELECT可以确定一个有n>1个不同元素的输入数组中第i小的元素。(如果n=1,则返回它的唯一输入数值作为第i小的元素)。
  

  1. 将输入数组的n个元素划分为⌊n/5⌋,每组5个元素,且至多只有一组由剩下的n mod 5 个元素组成。
  2. 寻找这⌈n/5⌉组中每一组的中位数:首先对每组元素进行插入排序,然后确定每组有序元素的中位数。
  3. 对第 2 步中找出的⌈n/5⌉个中位数,递归调用SELECT以找出其中位数x(如果有偶数个中位数,为了方便,约定x是较小的中位数)
  4. 利用修改的PARTITION版本,按中位数的中位数x对输入数组进行划分。让k比划分的低区中的元素数目多1,因此,x是第k小的元素,并且有n-k个元素在划分的高区。
  5. 如果i=k,则返回x.如果i < k,则在低区递归调用SELECT来找出第i小的元素,如果i>k,则在高区递归查找第i-k小的元素。
    推论得到算法递归式:
    T(n){O(1),T(n/5)+T(7n/10+6)+O(n),n<140 n 140

    这个运行时间是线性的。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值