
大数据
世纪殇
一个不断保持前进的程序员,目前潜心在数据分析和中等网站架构设计中
展开
-
大数据处理之二
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词 1、利用每个词的哈希值,进行5000求余,分发到1~5000为名的文件当中,就平均而言每个文件大小会是200K左右 2、针对步骤1产生的结果,如果大于1M的话,则根据文件大小,进行重新分配,当然是放在5001~5500当中 3、依次读取每个文件进行频度统计,将结果放在res原创 2015-06-03 15:59:52 · 563 阅读 · 0 评论 -
位图的使用
位图法定义编辑 所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,但数据状态又不是很多的情况。通常是用来判断某个数据存不存在的。 例如,要判断一千万个人的状态,每个人只有两种状态:男人,女人,可以用0,1表示。那么就可以开一个int数组,一个int有32个位,就可以表示32个人。操作的时候可以使用位操作。 2位图法应用编辑 一、给40亿个不重复的unsigned int的整数原创 2015-06-08 09:47:49 · 504 阅读 · 0 评论