设计 | 数据流中的中位数

本文介绍了一种高效求解数据流中位数的方法,通过维护两个堆(heap1, heap2),确保所有元素等分且heap1中的元素小于等于heap2中的元素,实现了addNum和findMedian方法的时间复杂度分别为O(logn)和O(1)。

题目

求数据流的中位数

  • 设计一个类,包含addNum和findMedian两个方法,findMedian时间复杂度优化到O(1)

方法

  1. 最简单的方法 - 排序,每次addNum时,元素追加到list末尾;findMedian时快速排序,然后求得中位数;addNum和findMedian的时间复杂度分别是O(n) 和 O(nlogn);提供这个答案明显还不够;如何优化findMedian的时间复杂度呢?
  2. 维护有序list,二分查找中位数;addNum时保持list有序,二分查找找到小于num的最小元素的索引idx,然后插入新元素到list;addNum和findMedian时间复杂度分别为O(n) O(logn)
  3. 维护两个heap;求中位数,没必要保持所有元素排序;只需要将元素等分为两个堆heap1,heap2,保证all num in heap1 <= all num in heap2;addNum和findMedian时间复杂度分别为O(logn) O(1)
class MedianFinder:
    def __init__(self):
        """
        initialize your data structure here.
        """
        self.heap1 = []
        self.heap2 = []

    def addNum(self, num: int) -> None:
        l1, l2 = len(self.heap1), len(self.heap2)
        if l2 == 0 or self.heap2[0] <= num:
            heapq.heappush(self.heap2, num)
        else:
            heapq.heappush(self.heap1, -num)
        l1, l2 = len(self.heap1), len(self.heap2)      
        if l2 - l1 > 1:
            item = heapq.heappop(self.heap2)
            heapq.heappush(self.heap1, -item)
        elif l1 > l2:
            item = heapq.heappop(self.heap1)
            heapq.heappush(self.heap2, -item)
        # print(self.heap1, self.heap2)

    def findMedian(self) -> float:
        l1, l2 = len(self.heap1), len(self.heap2)
        if l1 + l2 == 0:
            return 0
        if (l1 + l2) % 2 == 1:
            return self.heap2[0]
        else:
            return (-self.heap1[0] + self.heap2[0]) / 2


# Your MedianFinder object will be instantiated and called as such:
# obj = MedianFinder()
# obj.addNum(num)
# param_2 = obj.findMedian()
  • 这个题目前做到了一遍过
在使用 `SET` 数据结构时,若希望快速输出中位数,需要考虑 `SET` 的内部实现以及如何维护中位数的位置。`SET` 是基于红黑树实现的有序集合,因此可以利用其有序特性来高效获取中位数。 ### 获取中位数的策略 1. **直接通过迭代器访问中位数** 由于 `SET` 是有序的,可以使用迭代器来定位中位数。假设集合中有 `n` 个元素,中位数位于第 `n/2` 的位置(对于偶数个元素,可以选择中间两个数的任意一个,或者取两者的平均值)。 示例代码如下: ```cpp #include <iostream> #include <set> using namespace std; int main() { set<int> s = {1, 3, 5, 7, 9}; // SET 中已排序 int n = s.size(); auto it = s.begin(); advance(it, n / 2); // 移动到中位数位置 cout << "中位数为: " << *it << endl; return 0; } ``` 该方法的时间复杂度为 O(n),因为 `advance()` 需要逐个移动迭代器[^3]。 2. **维护一个指向中位数的迭代器** 如果频繁需要获取中位数,可以在插入或删除元素时动态维护一个指向中位数的迭代器。这样可以在 O(1) 时间内获取中位数。 - 插入元素时,根据当前元素的位置调整中位数指针。 - 删除元素时,如果删除的是中位数或其前面的元素,需要将中位数指针前移或后移。 这种方法适用于需要多次获取中位数的场景,例如动态数据流中的中位数问题。 ### SET 与 MULTSET 的区别 - `SET` 不允许重复元素,适合处理唯一值的集合。 - `MULTSET` 允许重复元素,适用于包含重复值的数据集。 在 `MULTSET` 中获取中位数的方法与 `SET` 类似,同样可以通过迭代器访问。 ### 性能优化建议 - 如果对性能要求极高,可以考虑使用两个 `SET` 或 `HEAP` 来分别维护数据的前半部分和后半部分,从而实现 O(1) 时间复杂度获取中位数。 - 使用 `SET` 时,若数据量较大,频繁调用 `advance()` 可能会影响性能,此时建议维护一个动态的中位数指针。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值