
大数据
ranyongqing
这个作者很懒,什么都没留下…
展开
-
给你1亿带有信息头的数据,然后再给你10万条数据头,然后得出满足这10万信息头的数据个数
给你1亿带有信息头的数据,然后再给你10万条数据头,然后得出满足这10万信息头的数据个数原创 2014-05-14 20:45:18 · 1169 阅读 · 0 评论 -
如何在有限的内存的情况下,找到大量数据中重复查询次数最多的语句
//500K内存,100万条数据,寻找里面重复查询次数最多的记录//思想显示对100万条数据分在不同的文件中,但是在分文件中的时候,要对起进行一定处理,分到对于的文件中,比如分成100个//文件,那么对每一条string进行hash得到的整数值%100,这样就分到不同的文件中了,然后确保其他文件中没有这一条记录,//然后对每一个文件进行处理,采样hash值,然后存入相应的文件中。/原创 2014-04-25 22:40:48 · 2249 阅读 · 0 评论 -
十七道海量数据处理面试题与Bit-map详解
前言 本博客内曾经整理过有关海量数据处理的10道面试题(十道海量数据处理面试题与十个方法大总结),此次除了重复了之前的10道面试题之后,重新多整理了7道。仅作各位参考,不作它用。 同时,程序员编程艺术系列将重新开始创作,第十一章以后的部分题目来源将取自下文中的17道海量数据处理的面试题。因为,我们觉得,下文的每一道面试题都值得重新思考,重新深究与学习。再者,编程艺术系列转载 2014-05-20 17:54:56 · 541 阅读 · 0 评论 -
MapReduce实现大矩阵乘法
引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类转载 2014-09-02 10:55:04 · 806 阅读 · 0 评论