【剑指offer】面试题41:数据流中的中位数

该博客讨论如何在数据流中实时计算中位数,提出利用最大堆和最小堆来实现。当数据数量为奇数时,中位数为堆顶元素;为偶数时,为两个堆顶元素的平均值。通过控制两个堆的大小差不超过1并确保数据正确分布,保证了中位数的正确计算。文中还详细介绍了插入数据时的处理策略,以及代码实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目:如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。

 由于数据是从一个数据流中读出来的,因而数据的数目随着时间的变化而增加的。如果用一个数据容器来保存从流中读出来的数据,则当有新的数据从流中读出来时,这些数据就插入数据容器。这个数据容器可以用很多的数据结构实现,比如:数组、链表、二叉搜索树、AVL树、最大堆和最小堆等等。

如果能够保证数据容器左边的数据都小于右边数据,那么即使左、右两边内部的数据没有排序,也可以根据左边最大的数及右边最小的数得到中位数。如何快速从一个容器中找出最大数呢?用最大堆实现这个数据容器,因为位于堆顶的就是最大数据。同样,也可以快速从最小堆中找出最小数。

因此,可以用如下思路来解决这个问题:用一个最大堆实现左边的数据容器,用一个最小堆实现右边的数据容器。往堆中插入一个数据的时间效率是 O(logn)。由于只需要O(1)时间就可以得到位于堆顶的数据,因此得到中位数的时间复杂度是O(1)。

下面来考虑用最大堆和最小堆实现的一些细节:

1、首先要保证数据平均分配到两个堆中,因此两个堆中数据的数目之差不能超过1。为了实现平均分配,可以在数据的总数目是偶数时把新数据插入最小堆,否则插入最大堆。

2、还要保证最大堆中的所有数据都要小于最小堆中的数据。当数据的总数目是偶数时,按照前面的分配规则会把新的数据插入最小堆。如果此时这个新的数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值