leetcode 295 数据流的中位数(最大堆与最小堆)

本文介绍了一种处理数据流中动态中位数计算的数据结构。通过维护两个堆,一个最大堆和一个最小堆,该结构能高效地添加新元素并实时计算中位数。适用于数据流中整数范围有限或分布集中的场景优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。
例如,
[2,3,4] 的中位数是 3
[2,3] 的中位数是 (2 + 3) / 2 = 2.5
设计一个支持以下两种操作的数据结构:
void addNum(int num) - 从数据流中添加一个整数到数据结构中。
double findMedian() - 返回目前所有元素的中位数。
示例:
addNum(1)
addNum(2)
findMedian() -> 1.5
addNum(3)
findMedian() -> 2
进阶:
如果数据流中所有整数都在 0 到 100 范围内,你将如何优化你的算法?
如果数据流中 99% 的整数都在 0 到 100 范围内,你将如何优化你的算法?

思路:
直观的方法:
存储结构使用数组,每次添加元素或者查找中位数时对数组进行排序,再计算结果
时间复杂度:
1、若添加元素时排序,addNum复杂度O(n),findMedian复杂度为O(1)
2.若查询中位数时排序,addNum复杂度为O(1),findMedian复杂度为O(nlogn)
若添加元素或查询中位数是随机的操作,共n次操作,按上述思想,整体复杂度最佳为O(n^2)
另一种思路:巧用堆的性质
动态维护一个最大堆与一个最小堆,最大堆存储一半数据,最小堆存储一般数据,维持最大堆的堆顶比最小堆的堆顶小
添加数据进入堆中的状态
状态1:
最大堆与最小堆元素个数相同
最大堆的堆顶比最小堆的堆顶小
状态2:
最大堆比最小堆多一个元素
如果新元素小于最大堆堆顶,则将最大堆的堆顶push进入最小堆,将最大堆的堆顶移除(pop),将新元素添加至最大堆
如果新元素大于最大堆堆顶,将新元素直接push进入最小堆
状态3:
最大堆比最小堆少一个元素
如果新元素小于最小堆堆顶,将新元素直接push进入最大堆
如果新元素大于最小堆堆顶,将最小堆的堆顶push进入最大堆,将最小堆的堆顶移除,将新元素添加至最小堆。
获取中位数思路
1、最大堆最小堆中的元素个数相同
中位数是最大堆堆顶和最小堆堆顶的平均值
2、最大堆比最小堆多一个元素,则中位数为最大堆堆顶元素
3、最大堆比最小堆少一个元素,则中位数为最小堆堆顶

class MedianFinder {
public:
    /** initialize your data structure here. */
    MedianFinder() {
        
    }
    
    void addNum(int num) {
        if(big_queue.empty()){
            big_queue.push(num);
            //return;
        }
        if(big_queue.size() == small_queue.size()){
            if(num < big_queue.top()){
                big_queue.push(num);
            }
            else{
                small_queue.push(num);
            }
        }
        else if(big_queue.size() > small_queue.size()){
            if(num > big_queue.top()){
                small_queue.push(num);
            }
            else{
                small_queue.push(big_queue.top());
                big_queue.pop();
                big_queue.push(num);
            }
        }
        else if(big_queue.size() < small_queue.size()){
            if(num < small_queue.top()){
                big_queue.push(num);
            }
            else{
                big_queue.push(small_queue.top());
                small_queue.pop();
                small_queue.push(num);
            }
        }
    }
    
    double findMedian() {
        if(big_queue.size() == small_queue.size()){
            return (big_queue.top() + small_queue.top()) / 2;
        }
        else if(big_queue.size() > small_queue.size()){
            return big_queue.top();
        }
        return small_queue.top();
    }
private:
    std::priority_queue<double> big_queue;
    std::priority_queue<double, vector<double>,greater<double>> small_queue;
};

<think>嗯,用户想了解如何用编程方法实现在数据流中计算中位数的算法或代码示例。首先,我需要回忆一下相关的数据结构。通常,处理数据流中位数的方法是使用两个:一个最大堆和一个最小最大堆保存较小的一半数,最小保存较大的一半数。这样,中位数就可以通过这两个顶元素来快速计算。 用户提供的引用内容里提到了LeetCode上的第295题,这正是关于数据流中位数的题目。所以应该参考这个题的解法。根据引用[1]和引用[3],关键点在于维护两个的平衡,确保它们的元素数量差不超过1。当元素总数为奇数时,中位数是其中一个顶;偶数时则是两个顶的平均值。 接下来要考虑具体的实现方法。例如,在Python中可以使用heapq模块,但需要注意的是,heapq默认是最小,要实现最大堆的话,可以通过存储负数来实现。每次插入新元素时,需要先判断应该插入哪个,并调整两个的大小,保持平衡。 用户的问题可能还关心如何处理不同情况下的优化,比如数据范围有限时如何优化,但当前的问题主要是基础实现。所以示例代码应该展示如何用两个来动态维护中位数。同时,需要确保代码正确,比如插入元素后的平衡操作,比如当两个大小差超过1时进行调整。 另外,用户提供的引用[2]提到如果数据大部分在0-100范围内,可能使用计数排序等方法优化,但基础示例可能不需要涉及这些,先给出通用解法比较好。 最后,需要验证示例代码的正确性。比如,当插入多个数后,findMedian是否能正确返回中位数。例如,测试用例[1,2,3]的中位数是2,而[1,2,3,4]的中位数是2.5。代码应该正确处理这些情况。 可能还需要考虑时间复杂度的分析,插入操作的时间复杂度是O(log n),因为的插入和弹出操作都是对数时间。而查找中位数是O(1)时间,这满足了高效处理数据流的需求。 总结步骤:创建两个,left最大堆,right最小。插入时根据大小选择,调整平衡。取中位数时根据总元素数量判断奇偶。</think>### 数据流中位数算法实现 在数据流中实时计算中位数,通常使用**双法**(最大堆+最小)实现时间复杂度为$O(\log n)$的插入和$O(1)$的查询操作[^3]。 #### 实现步骤 1. **数据结构设计**: - **左最大堆)**:存储数据流中较小的一半元素,顶为最大值 - **右最小)**:存储数据流中较大的一半元素,顶为最小值 - **平衡条件**:$|len(left) - len(right)| \leq 1$ 2. **插入逻辑**: ```python import heapq class MedianFinder: def __init__(self): self.left = [] # 最大堆(用负数存储) self.right = [] # 最小 def addNum(self, num: int) -> None: # 初始插入左 if not self.left or num <= -self.left[0]: heapq.heappush(self.left, -num) else: heapq.heappush(self.right, num) # 平衡大小 if len(self.left) - len(self.right) > 1: val = -heapq.heappop(self.left) heapq.heappush(self.right, val) elif len(self.right) > len(self.left): val = heapq.heappop(self.right) heapq.heappush(self.left, -val) ``` 3. **查询中位数**: ```python def findMedian(self) -> float: if len(self.left) == len(self.right): return (-self.left[0] + self.right[0]) / 2 else: return -self.left[0] ``` #### 算法特性 1. **时间复杂度**: - `addNum()`: $O(\log n)$ - `findMedian()`: $O(1)$ 2. **空间复杂度**: $O(n)$ #### 示例验证 ```python mf = MedianFinder() mf.addNum(1) mf.addNum(2) print(mf.findMedian()) # 输出1.5 mf.addNum(3) print(mf.findMedian()) # 输出2.0 ``` #### 优化场景 当数据分布有特殊规律时可优化: 1. **有限范围**(如0-100):使用计数排序统计频率[^2] 2. **已知分布比例**(如99%在0-100):结合双法和桶统计[^2]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值