海量整数，求中位数

最新推荐文章于 2021-05-25 11:36:55 发布

原创最新推荐文章于 2021-05-25 11:36:55 发布 · 508 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了一种通过将数据集划分成多个小文件并分别排序，再利用最小堆实现高效寻找中位数的方法。

遍历一遍，统计总的数目为n，于是定义中位数为n/2 -1，或者n/2。

将数据读入m个小文件，分别排序，然后仿照归并排序，建立size为m的最小堆，记录堆中每个元素对应的有序文件编号，踢出堆顶元素，补进对应文件的下一个元素，调整堆，直到踢出第n/2 -1，或者n/2。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

多多大人

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

数据分析- 海量数据求中位数

weixin_53731307的博客

08-30

2524

如果内存足够容纳所有数据，可以将数据加载到内存中，进行排序，然后直接找到中间位置的元素或者中间两个元素求平均值作为中位数。

海量数据中寻找中位数

Joy

07-27

1101

文章目录题目思路一：外排序（排序-归并）什么是外排序本题思路：先通过外排序进行排序再寻找中位数思路二：堆排序（转换为求前5G大的元素）思路三：分而治之：基于二进制位映射分割思路四：基数排序（计数排序）什么是计数排序（线性时间排序）什么是基数排序计数排序、基数排序与其他对比排序算法的比较本题思路:基于计数排序的基数排序思路五：桶排序什么是桶排序本题思路：桶排序思路六：bitmap位图算法本题思路：使...

参与评论您还未登录，请先登录后发表或查看评论

从键盘上输入n个数并求出这组数据的中位数

浮生途的博客

06-22

5906

#include<stdio.h> int main() { int i, j, t, n, a; int s[100]; scanf("%d", &n); printf("输入%d个数\n", n); for (i = 0; i < n; i++) { scanf("%d", &s[i] ); } for (i = 0; i < n..

题目：给定一个未排序的数组x1,x2……xn（n为奇数），请用Java实现一个算法找到该数组的中位数。

qq_42449963的博客

05-24

317

题目：给定一个未排序的数组x1,x2……xn（n为奇数），请用Java实现一个算法找到该数组的中位数。即：1+(n-1)/2大的数。请不要用Arrays.sort()等java方法。答案： public class Test { public static void main(String[] args) { // 测试数据，5个元素，数目为奇数，符合要求 int[] a = {77, 9, 15, 56, 2}; // 进行冒泡升序排序

三路快排算法-求中位数问题(4)

weixin_34101229的博客

07-15

334

算法面试高频题，求前K个数，或者求中位数 引至51CTO 三路快排算法思路将数组分为三部分，随机选择数组中的一个数，使数组左边都小于这个数，右边大于这个数。在递归处理左边数组，右边数组。 step1排列数组的时间复杂度是O(N)，空间复杂度是O(1) step2 递归调用的复杂度O(log...

寻找中位数

black_horse2018的博客

10-13

1543

寻找中位数 TimeLimit:1000MS MemoryLimit:128MB 64-bit integer IO format:%lld 已解决 | 点击收藏 × 收藏题目备注 Close确定 Problem Description 这题温暖大家的心(手动滑稽.jpg我看能收割多少个wa) 给定n个整数，求这些整数的中位数。注意：若n为偶数，输出从小到大排序后最中间...

给定一个未排序的整数数组，找到其中位数。 中位数是排序后数组的中间值，

06-04

5311

给定一个未排序的整数数组，找到其中位数。 中位数是排序后数组的中间值，如果数组的个数是偶数个，则返回排序后数组的第N/2个数。样例给出数组[4, 5, 1, 2, 3]，返回 3 给出数组[7, 9, 4, 5]，返回 5 思路：先快排， int getMidIndex(vector &nums,int low,int high){ int tmp=num

多机求海量数据的中位数和topK的问题

h2517956473的博客

05-25

355

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、多机数据处理 中位数K二、使用步骤1.引入库2.读入数据总结一、多机数据处理 中位数K 有10台机器，每台机器保存着10亿个64-bit 整数（可有上下几千万浮动），一共有约100亿个整数（总共差不多80GB数据） 10台机器和10亿数据用快排不现实，所以采用分布式的二分查找法 1、将每台机器的数据排序 2、client端使用二分猜数m，调用RPC方法查询每台机器小于 m的个数smaller，保证满足 smal

海量数据找中位数

qq_40123329的博客

03-20

1529

法一原博客链接思路如下：从10亿个数据（int型占据4B）中找中位数，内存限制为1GB。不可能一次性把数据全部加载到内存中，再使用快速排序算法，因为10亿*4B大约为4GB，内存不够。可以一次性读入1GB的数据（分10次读取），然后对读入的1GB数据按照最高位即第32位的值进行分类并写入文件，如果最高位是1，写入file1,否则写入file2。那么file1全是负数，file2...

乱序不重复整数数组求中位数

z397738481的博客

11-03

2234

[算法]海量整数取中位数今天去面试遇到一道算法题，40亿整数乱序不重复的情况下，如何取它的中位数，要求时间复杂度为O(n)。首先想到的是快排加二分查找的思想，取一个数进行partition之后确定它的绝对位置，就可以放弃少的一边的比较。搜了一下发现有个QuickSelect算法，也一起放进来对比了。

【面试题】给多个无序正整数，求中位数

下个路口见_20的专栏

09-16

1361

题目：给你很多很多正整数，但它们是无序的，找出它们的中位数。最开始就想说使用快排，先将这些整数进行排序，然后找到中位数，但又想到可能不是面试官想要的答案，于是又采用了其他方法，最终也没完全解决出来。【经验总结：当面试官问了一个算法题后，如果想不到优化一点的方法，就先把能想到的解决方案告诉他，即使这种方案可能很烂[笑哭]，然后再考虑下一步的优化，不要总想着一下就能找到最优的解法，这样最终可能...

无序数组的中位数

weixin_30950887的博客

08-07

327

参考：http://mp.weixin.qq.com/s?__biz=MjM5ODIzNDQ3Mw%3D%3D&idx=1&mid=2649965551&scene=0&sn=bc769eb3fbd2f4075c58524f4cc8332d 中位数，就是数组排序后处于数组最中间的那个元素。说来有些麻烦，如果数组长度是奇数，最中间就是位置为（n+1）／2的那个元素。...

lintcode-中位数-80

我有一个梦想

09-10

1786

给定一个未排序的整数数组，找到其中位数。 中位数是排序后数组的中间值，如果数组的个数是偶数个，则返回排序后数组的第N/2个数。样例给出数组[4, 5, 1, 2, 3]，返回 3 给出数组[7, 9, 4, 5]，返回 5 挑战时间复杂度为O(n) 空间换时间： class Solution { public:

牛客网刷题C语言求中位数

weixin_41943168的博客

04-04

3279

题目描述 中位数定义：一组数据按从小到大的顺序依次排列，处在中间位置的一个数（或最中间两个数据的平均数）. 给出一组无序整数，求出中位数，如果求最中间两个数的平均数，向下取整即可（不需要使用浮点数）输入描述: 该程序包含多组测试数据，每一组测试数据的第一行为N，代表该组测试数据包含的数据个数，1<=N<=10000. 接着N行为N个数据的输入，N=0时结束输...

给定一个整数序列，求中位数

qq_27512741的博客

11-16

2783

问题描述给定一个整数序列，求中位数。如果序列个数为奇数，中位数为升序的中间位置，如果是偶数，这位升序的中间两个数的平均值。输入输入包含多组测试数据，每一组第一行为n(n<104)表示这个序列的个数，接下来有n个整数k(0<k<231-1) 输出输出这个序列的中位数 样例输入 9 1 4 2 5 9 7 8 3 6 样例输出 5 #include <cstdio&g...

快速排序以及使用快排找中位数

weixin_33947521的博客

09-21

1801

2019独角兽企业重金招聘Python工程师标准>>> ...

求海量个无序整数的中位数

elton_xiao的专栏

11-11

1007

在一个文件中有 10G 个整数，乱序排列，要求找出中位数。内存限制为 2G。不妨假设10G个整数是64bit的。 2G内存可以存放256M个64bit整数。我们可以将64bit的整数空间平均分成256M个取值范围，用2G的内存对每个取值范围内出现整数个数进行统计。这样遍历一边10G整数后，我们便知道中数在那个范围内出现，以及这个范围内总共出现了多少个整数。如果中数所在范围出现

基于微信小程序平台开发的集家庭日常收支精细化记录多成员协同管理与智能财务分析于一体的云端家庭财务管理系统_微信小程序开发前端界面设计后端数据逻辑处理云数据库存储用户权限管.zip

最新发布

12-04

在海量数据处理场景中，如何设计高效的算法来查找一个大数据集中所有数的中位数？请结合具体案例提供实现思路。

11-10

要解决海量数据集中的中位数查找问题，传统的方法如直接排序然后查找中位数，由于其时间复杂度较高且不适合大数据量处理，因此需要采用更加高效的算法。推荐您阅读《微软面试100题：数据结构与算法解析》，其中详细讨论了在大数据环境下如何处理此类问题。参考资源链接：[微软面试100题：数据结构与算法解析](https://wenku.youkuaiyun.com/doc/6xrgibxr7g?spm=1055.2569.3001.10343) 首先，可以考虑分布式计算方法，将数据分散到多个服务器上进行处理。例如，使用外部排序算法配合归并排序的策略，可以将大规模数据集分散到多个机器上进行局部排序，然后通过网络进行归并排序找出中位数。另一种有效的方法是使用“数据抽样+概率算法”。例如，采用“中位数的中位数”算法，这是一种随机选择算法，首先从数据集中随机选取一组数，找出这组数的中位数作为“候选人”，然后根据候选人与数据集中所有数比较的结果动态调整候选人的范围，最终逼近真实的中位数。还有一种方法是使用“空间换时间”的思想，利用哈希表或其他数据结构进行计数，记录每个数值出现的次数，再通过累加计数找到中位数位置。这种方法在数据范围有限时特别有效，例如用Bit-map来处理有限范围内的整数集合。以一个具体的案例来说，假设有10亿个浮点数，我们需要找出这些数的中位数。首先可以根据浮点数的范围将它们分桶存储，每桶包含一定范围内的数值。然后通过并行计算的方式，在每个桶内计算中位数，最后在所有桶的中位数中找到全局的中位数。通过这些策略，我们可以有效地解决大数据集中中位数查找的问题。如果您想了解更多关于数据结构、算法以及海量数据处理的知识，《微软面试100题：数据结构与算法解析》是一份宝贵的学习资源，它不仅提供了实际面试题目的解析，还深入讨论了各种问题的算法思路和优化方法，非常适合在准备面试时使用。参考资源链接：[微软面试100题：数据结构与算法解析](https://wenku.youkuaiyun.com/doc/6xrgibxr7g?spm=1055.2569.3001.10343)