
大数据量处理
文章平均质量分 72
iteye_8381
这个作者很懒,什么都没留下…
展开
-
海量数据处理:十道面试题与十个海量数据处理方法总结
http://blog.youkuaiyun.com/v_JULY_v/article/details/6279498第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为10...原创 2012-01-14 23:08:04 · 106 阅读 · 0 评论 -
大数据量,海量数据 处理方法总结
1.Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以...原创 2012-01-14 23:15:38 · 124 阅读 · 0 评论 -
大数据量,海量数据处理方法总结海量1
http://vrlinux.com/wenzhangjingxuan/20101025/78066_6.html大数据量的问题是很多面试笔试中经常出现的问题,比如baidu,google,tx这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面...原创 2012-01-19 15:10:54 · 159 阅读 · 0 评论 -
大数据量,海量数据处理方法总结海量2
3.bit-map 适用范围:可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下 基本原理及要点:使用bit数组来表示某些元素是否存在,比如8位电话号码 扩展:bloom filter可以看做是对bit-map的扩展 问题实例: 1)已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数。 8位最多99 999 999,大概需要99m个...原创 2012-01-19 15:17:07 · 173 阅读 · 0 评论 -
大数据量,海量数据处理方法总结海量3
7.倒排索引(Inverted index) 适用范围:搜索引擎,关键字查询 基本原理及要点:为何叫倒排索引?一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。以英文为例,下面是要被索引的文本: T0 = "it is what it is" T1 = "what is it" T2 = "it is a banana" 我们就能得到下面的反向文件索引...原创 2012-01-19 15:22:34 · 139 阅读 · 0 评论 -
大数据量,海量数据处理方法总结海量4
经典问题分析 上千万or亿数据(有重复),统计其中出现次数最多的前N个数据,分两种情况:可一次读入内存,不可一次读入。 可用思路:trie树+堆,数据库索引,划分子集分别统计,hash,分布式计算,近似统计,外排序 所谓的是否能一次读入内存,实际上应该指去除重复后的数据量。如果去重后数据可以放入内存,我们可以为数据建立字典,比如通过 map,hashmap,trie,然后直接进行统计...原创 2012-01-19 15:26:04 · 146 阅读 · 0 评论 -
转载大数据排序 很好的思想
算法的力量:位运算在排序与搜索中的应用楔子: 问题:假设一个文件中有9亿条不重复的9位整数,现在要求对这个文件进行排序。一般解题思路: 1、将数据导入到内存中 2、将数据进行排序 (比如插入排序、快速排序) 3、将排序好的数据存入文件难题: 一个整数为4个字节即使使用数组也需要900,000,000 * 4byte = 3.4G内存对于32位系统,访问2G以上的内存非常困难...原创 2012-02-16 17:34:15 · 206 阅读 · 0 评论 -
完整java实现外部排序
外部排序指的是大文件的排序,即待排序的记录存储在外存储器上,待排序的文件无法一次装入内存,需要在内存和外部存储器之间进行多次数据交换,以达到排序整个文件的目的。选自百度百科。第一步: 首先我们先来创建一个大号的文件。public class Sort { public static void main(String[] args) throws IOException{ ...原创 2012-02-16 17:58:37 · 1648 阅读 · 0 评论