【Leetcode】295. 数据流的中位数

本文介绍了如何设计一个数据结构来支持动态添加整数到数据流中并实时计算中位数。提出了两种方法:使用优先队列和有序集合加双指针。每种方法的时间复杂度均为O(logn)添加,O(1)查找中位数,空间复杂度为O(n)。此外,针对数据流中大部分整数在0到100的范围内的场景,提出了优化策略,如使用计数排序和双指针来进一步提高效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目描述

中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。
例如,
[2,3,4] 的中位数是 3
[2,3] 的中位数是 (2 + 3) / 2 = 2.5

设计一个支持以下两种操作的数据结构

  • void addNum(int num) - 从数据流中添加一个整数到数据结构中。
  • double findMedian() - 返回目前所有元素的中位数。

来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/find-median-from-data-stream


示例

addNum(1)
addNum(2)
findMedian() -> 1.5
addNum(3) 
findMedian() -> 2

进阶

  1. 如果数据流中所有整数都在0到100范围内,你将如何优化你的算法?
  2. 如果数据流中99%的整数都在0到100范围内,你将如何优化你的算法?

解题思路

方法1:优先队列

定义两个优先队列queueMax和queueMin,其中:

  • queueMax:记录大于中位数的数
  • queueMin:记录小于等于中位数的数。
  1. 当累计添加的数的数量为奇数时,queueMin中的数的数量比queueMax多一个(中位数放在了queueMin队列中),此时中位数为queueMin的队头。
  2. 当累计添加的数的数量为偶数,两个优先队列中的数的数量相同,此时中位数就是它们的队头的平均值。

当我们尝试添加一个数num到数据结构中,需要分情况讨论:

  1. num<=max{queueMin}
    此时num小于等于中位数,需要将该数添加到queueMin中。新的中位数将小于等于原来的中位数,因此需要将queueMin中最大的数移动到queueMax中。
  2. num>max{queueMin}
    此时num大于中位数,需要将该数添加到queueMax中。新的中位数将大于等于原来的中位数,因此我们可能需要将queueMax中最小的数移动到queueMin中。

注意,当累计添加的数的数量为0时,将num添加到queueMin中。
代码如下:

package com.seckill.secondkill.utils;

import java.util.PriorityQueue;

class MedianFinder {
    public static PriorityQueue<Integer> queMin;
    public static PriorityQueue<Integer> queMax;

    public MedianFinder() {
        queMin = new PriorityQueue<>((a, b) -> (b - a));
        queMax = new PriorityQueue<>((a, b) -> (a - b));
    }

    public void addNum(int num) {
        // 首先将元素加入到最小堆中
        if (queMin.isEmpty() || num <= queMin.peek()) {
            queMin.offer(num);
            if (queMax.size() + 1 < queMin.size()) {
                queMax.offer(queMin.poll());
            }
        } else {
            queMax.offer(num);
            if (queMax.size() > queMin.size()) {
                queMin.offer(queMax.poll());
            }
        }
    }

    public double findMedian() {
        if (queMin.size() > queMax.size()) {
            return queMin.peek();
        }
        return (queMin.peek() + queMax.peek()) / 2.0;
    }
}

复杂度分析
时间复杂度:

  • addNum : O ( log ⁡ n ) \textit{addNum}: O(\log n) addNum:O(logn),其中 n 为累计添加的数的数量。
  • findMedian : O ( 1 ) \textit{findMedian}: O(1) findMedian:O(1)

空间复杂度:O(n),主要为优先队列的开销。

方法2:有序集合+双指针

使用有序集合维护这些数,把有序集合看作自动排序的数组,使用双指针指向有序集合中的中位数元素即可。当累计添加的数的数量为奇数时,双指针指向同一个元素。当累计添加的数的数量为偶数时,双指针分别指向构成中位数的两个数。

当尝试添加一个数num到数据结构中,需要分情况讨论:

  1. 初始化有序集合为空,直接让左右指针指向num所在的位置;
  2. 有序集合中元素个数为奇数时,left和right同时指向中位数。如果num大于等于中位数,那么只要让left左移,否则让right右移即可;
  3. 有序集合中元素个数为偶数时,left和right分别指向构成中位数的两个数。
    • 当num成为新的 唯一的中位数,那么让left右移,right左移,这样它们即可指向num所在的位置;
    • 当num大于等于 right,那么让left右移即可;
    • 当num小于right指向的值,那么我们让right左移,注意到如果num等于left指向的值,那么num将被插入到left的右侧,使得left和right间距增大,所以还需要额外让left指向移动后的right

代码如下:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# @FileName  :MedianFinder.py
# @Time      :2021/10/8 11:02
# @Author    :PangXZ
from sortedcontainers import SortedList


class MedianFinder:
    def __init__(self):
        self.nums = SortedList()
        self.left = self.right = None
        self.left_value = self.right_value = None

    def addNum(self, num: int) -> None:
        nums_ = self.nums
        n = len(nums_)
        nums_.add(num)
        if n == 0:
            self.left = self.right = 0
        else:
            # 模拟双指针,当 num 小于 self.left 或 self.right 指向的元素时,num 的加入会导致对应指针向右移动一个位置
            if num < self.left_value:
                self.left += 1
            if num < self.right_value:
                self.right += 1

            if n & 1:
                if num < self.left_value:
                    self.left -= 1
                else:
                    self.right += 1
            else:
                if self.left_value < num < self.right_value:
                    self.left += 1
                    self.right -= 1
                elif num >= self.right_value:
                    self.left += 1
                else:
                    self.right -= 1
                    self.left = self.right
        self.left_value = nums_[self.left]
        self.right_value = nums_[self.right]

    def findMedian(self) -> float:
        return (self.left_value + self.right_value) / 2


if __name__ == "__main__":
    medianfinder = MedianFinder()
    medianfinder.addNum(3)
    medianfinder.addNum(2)
    medianfinder.addNum(5)
    print(medianfinder.findMedian())
    medianfinder.addNum(4)
    print(medianfinder.findMedian())

复杂度分析
时间复杂度:

  • addNum : O ( log ⁡ n ) \textit{addNum}: O(\log n) addNum:O(logn),其中 n 为累计添加的数的数量。
  • findMedian : O ( 1 ) \textit{findMedian}: O(1) findMedian:O(1)

空间复杂度:

  • O(n),主要为有序集合的开销。

进阶问题1:
如果数据流中所有整数都在0到100范围内,那么可以根据计数排序统计每一类数的数量,并使用双指针维护中位数。
进阶问题2:
如果数据流中99%的整数都在0到100范围内,那么依旧可以利用计数排序统计每一类的数量,并使用双指针维护中位数。对于超出范围的数,可以单独进行处理,建立两个数组,分别记录小于0的部分的数的数量和大于100的部分的数的数量即可。当小部分时间,中位数不落在区间[0,100]中时,在对应的数组中暴力检查即可。

<think>嗯,用户想了解如何用编程方法实现在数据流中计算中位数算法或代码示例。首先,我需要回忆一下相关的数据结构。通常,处理数据流中位数的方法是使用两个堆:一个最大堆和一个最小堆。最大堆保存较小的一半数,最小堆保存较大的一半数。这样,中位数就可以通过这两个堆的堆顶元素来快速计算。 用户提供的引用内容里提到了LeetCode上的第295题,这正是关于数据流中位数的题目。所以应该参考这个题的解法。根据引用[1]和引用[3],关键点在于维护两个堆的平衡,确保它们的元素数量差不超过1。当元素总数为奇数时,中位数是其中一个堆的堆顶;偶数时则是两个堆顶的平均值。 接下来要考虑具体的实现方法。例如,在Python中可以使用heapq模块,但需要注意的是,heapq默认是最小堆,要实现最大堆的话,可以通过存储负数来实现。每次插入新元素时,需要先判断应该插入哪个堆,并调整两个堆的大小,保持平衡。 用户的问题可能还关心如何处理不同情况下的优化,比如数据范围有限时如何优化,但当前的问题主要是基础实现。所以示例代码应该展示如何用两个堆来动态维护中位数。同时,需要确保代码正确,比如插入元素后的平衡操作,比如当两个堆大小差超过1时进行调整。 另外,用户提供的引用[2]提到如果数据大部分在0-100范围内,可能使用计数排序等方法优化,但基础示例可能不需要涉及这些,先给出通用解法比较好。 最后,需要验证示例代码的正确性。比如,当插入多个数后,findMedian是否能正确返回中位数。例如,测试用例[1,2,3]的中位数是2,而[1,2,3,4]的中位数是2.5。代码应该正确处理这些情况。 可能还需要考虑时间复杂度的分析,插入操作的时间复杂度是O(log n),因为堆的插入和弹出操作都是对数时间。而查找中位数是O(1)时间,这满足了高效处理数据流的需求。 总结步骤:创建两个堆,left最大堆,right最小堆。插入时根据大小选择堆,调整平衡。取中位数时根据总元素数量判断奇偶。</think>### 数据流中位数算法实现 在数据流中实时计算中位数,通常使用**双堆法**(最大堆+最小堆)实现时间复杂度为$O(\log n)$的插入和$O(1)$的查询操作[^3]。 #### 实现步骤 1. **数据结构设计**: - **左堆(最大堆)**:存储数据流中较小的一半元素,堆顶为最大值 - **右堆(最小堆)**:存储数据流中较大的一半元素,堆顶为最小值 - **平衡条件**:$|len(left) - len(right)| \leq 1$ 2. **插入逻辑**: ```python import heapq class MedianFinder: def __init__(self): self.left = [] # 最大堆(用负数存储) self.right = [] # 最小堆 def addNum(self, num: int) -> None: # 初始插入左堆 if not self.left or num <= -self.left[0]: heapq.heappush(self.left, -num) else: heapq.heappush(self.right, num) # 平衡堆大小 if len(self.left) - len(self.right) > 1: val = -heapq.heappop(self.left) heapq.heappush(self.right, val) elif len(self.right) > len(self.left): val = heapq.heappop(self.right) heapq.heappush(self.left, -val) ``` 3. **查询中位数**: ```python def findMedian(self) -> float: if len(self.left) == len(self.right): return (-self.left[0] + self.right[0]) / 2 else: return -self.left[0] ``` #### 算法特性 1. **时间复杂度**: - `addNum()`: $O(\log n)$ - `findMedian()`: $O(1)$ 2. **空间复杂度**: $O(n)$ #### 示例验证 ```python mf = MedianFinder() mf.addNum(1) mf.addNum(2) print(mf.findMedian()) # 输出1.5 mf.addNum(3) print(mf.findMedian()) # 输出2.0 ``` #### 优化场景 当数据分布有特殊规律时可优化: 1. **有限范围**(如0-100):使用计数排序统计频率[^2] 2. **已知分布比例**(如99%在0-100):结合双堆法和桶统计[^2]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

镰刀韭菜

看在我不断努力的份上,支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值