Big Data
luxiaoxun
拒绝平庸,但也不指望什么奇迹!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
十道海量数据处理面试题与十个方法大总结
作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量数据处理的方法总结。本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.youkuaiyun.com/v_JULY_v。--------------------转载 2012-04-29 14:06:20 · 1282 阅读 · 0 评论 -
从大量整数中选取最小/大的若干个
问题描述:现在有非常大量的一堆对象,比如有几十亿甚至上百亿个。对象本身是什么可以忽略,每个对象都有唯一标识符和一个正整数属性值,属性值范围有限(不大于一亿)。在单核机器上,内存和磁盘空间充足,用什么方法可以最快地输出属性值最小的若干(如一万)个对象,要求输出结果按照属性值排序。先来看看题目中出现的数字带来什么信息。对象的个数(设为n),十亿甚至百亿:也就是10^9到10^10这样的转载 2012-05-04 20:16:25 · 1468 阅读 · 0 评论 -
BloomFilter 大规模数据处理利器
BloomFilter——大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在转载 2012-05-06 17:06:21 · 1039 阅读 · 0 评论 -
各种字符串Hash函数比较
常用的字符串Hash函数还有ELFHash,APHash等等,都是十分简单有效的方法。这些函数使用位运算使得每一个字符都对最后的函数值产生影响。另外还有以MD5和SHA1为代表的杂凑函数,这些函数几乎不可能找到碰撞。常用字符串哈希函数有BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等等。对于以上几种哈希函数,我对其进转载 2012-04-21 18:39:55 · 751 阅读 · 0 评论 -
hash算法--one-way hash
我们由一个简单的问题逐步入手:有一个庞大的字符串数组,然后给你一个单独的字符串,让你从这个数组中查找是否有这个字符串并找到它,你会怎么做?有一个方法最简单,老老实实从头查到尾,一个一个比较,直到找到为止,我想只要学过程序设计的人都能把这样一个程序作出来,但要是有程序员把这样的程序交给用户,只能用无语来评价。 最合适的算法自然是使用HashTable(哈希表),先介绍介绍其中的基本知识原创 2012-05-02 16:50:38 · 3548 阅读 · 0 评论 -
海量数据等概率随机选取问题
1、问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行?首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand()函数随机的获得一个行数,从而随机的取出一行,但是,当前的情况是不知道行数,这样如何求呢?我们需要一个概念来帮助我们做出猜想,来使得对每一行取出的概率相等,也即随机。这个概念即蓄水池抽样(Reservoir Sa原创 2012-05-03 19:12:42 · 2311 阅读 · 0 评论
分享