阅读海量数据帖子笔记

        今天阅读帖子

教你如何迅速秒杀掉:99%的海量数据处理面试题

http://blog.youkuaiyun.com/v_july_v/article/details/7382693

看看别人总结的海量数据的题目。

 文中描述的不太详尽,或是本人在很多方面都不了解,于细节部分又在网上搜索,找到了一些简单详细的细节部分,为阅读时参考。

 1.hash_map http://wenku.baidu.com/view/a3e360ed0975f46527d3e172.html

 2.hash_set http://www.cnblogs.com/anderslly/archive/2011/06/13/hashset-part1.html

 

1.分而治之/hash映射 + hash统计 + 堆/快速/归并排序;  

     文件太大,hash 取mod 划分 使得有序

     与重复有关      就做统计

     之后           归并 多个文件
2.双层桶划分

         类似每个项目为整数,划分整数 映射到多个文件     


3.Bloom filter/Bitmap;

   Bloom filter  k个hash 判断重  并允许错误率E;

   位数组  大小为m  数据量 n;

   m => log(1/E) n;       k = ln2(m/n) 错误率低

 Bitmap 按位直接映射,判断重。

 位图若太大,就先hash划分文件
4.Trie树/数据库/倒排索引;

前缀树,用于字符串的统计 较有效。


5.外排序;

 内存不足以hash,只能做外排。
6.分布式处理之Hadoop/Mapreduce。

先map 再reduce 这个不太懂,得看看搜索引擎的书

 

具体一些实现时,同hashtab较多。

 

转载于:https://www.cnblogs.com/shalk/archive/2012/09/04/9769671.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值