一道数据处理的算法题

本文探讨了在有限内存条件下如何高效地找出2亿条观影记录中观看次数最多的前1000个用户。通过采用分治策略,利用归并排序的思想来解决大规模数据排序的问题。

有一份5000万个用户的数据,有一份2亿个用户看电影的记录。只有1G的内存,找到看电影最多的前1000个用户?

应该怎么做呢?

 

我一开始的想法,哎呀,快速排序!把2亿个用户的数据提取出来放到5000万长度的数组里进行快速排序。把2亿个用户的数据提取出来,只能靠HashMap了,那么就要在建一个5000万个Key的HashMap了。但是想想只有1G的内存。

 

查找资料,在一个人博客中写到:1000000个item的HashMap就占内存接近60M了,那么5000万个item估计就要超过1个G了,因为HaspMap是非常非常消耗内存的。越是我的这个想法就宣告失败。

 

其实从思想上来看,我的这个想法只是暴力而已,用已经熟知的快速排序在时间上找点优势。然后看看题目,就知道他考你的不是时间,而是内存。我们都知道快速排序用的分而治之的思想,和这个思想相同的排序算法还有归并排序。

这个问题的正确解法应该是将2亿个记录分成一段段小的部分(可以用1G内存处理的部分),然后用我上面的方法进行排序,这样得出来每段的顺序,取前1000个,然后两两结合再次排序,或者三三结合也行。直到最后合并成一块,那就是我们需要的东西。

 

纵观下来,这就是归并排序的思想,也是分而治之的思想。在物理内存限制的情况下,我们只能局部求解,慢慢扩展到整体。这样可以用少的内存解决一个很庞大的问题。

 

如果这样的思想能在你的脑袋里扎根,那么很多问题你就可以解决了。

转载于:https://www.cnblogs.com/dacc123/p/8926632.html

dnSpy是目前业界广泛使用的一款.NET程序的反编译工具,支持32位和64位系统环境。它允许用户查看和编辑.NET汇编和反编译代码,以及调试.NET程序。该工具通常用于程序开发者在维护和调试过程中分析程序代码,尤其在源代码丢失或者无法获取的情况下,dnSpy能提供很大的帮助。 V6.1.8版本的dnSpy是在此系列软件更新迭代中的一个具体版本号,代表着该软件所具备的功能与性能已经达到了一个相对稳定的水平,对于处理.NET程序具有较高的可用性和稳定性。两个版本,即32位的dnSpy-net-win32和64位的dnSpy-net-win64,确保了不同操作系统架构的用户都能使用dnSpy进行软件分析。 32位的系统架构相较于64位,由于其地址空间的限制,只能支持最多4GB的内存空间使用,这在处理大型项目时可能会出现不足。而64位的系统能够支持更大的内存空间,使得在处理大型项目时更为方便。随着计算机硬件的发展,64位系统已经成为了主流,因此64位的dnSpy也更加受开发者欢迎。 压缩包文件名“dnSpy-net-win64.7z”和“dnSpy-net-win32.7z”中的“.7z”表示该压缩包采用了7-Zip压缩格式,它是一种开源的文件压缩软件,以其高压缩比著称。在实际使用dnSpy时,用户需要下载对应架构的压缩包进行解压安装,以确保软件能够正确运行在用户的操作系统上。 dnSpy工具V6.1.8版本的发布,对于.NET程序员而言,无论是32位系统还是64位系统用户,都是一个提升工作效率的好工具。用户可以根据自己计算机的操作系统架构,选择合适的版本进行下载使用。而对于希望进行深度分析.NET程序的开发者来说,这个工具更是不可或缺的利器。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值