
大数据学习
IronLavender
时间 时间 你慢慢来
展开
-
小例子来理解MapReduce
MapReduce是由Google开发的针对大规模海量数据处理的分布式计算框架。MapReduce处理数据的两个核心阶段是Map(映射)和Reduce(化简)。简单地来,Map负责将数据打散,Reduce负责对数据进行聚集。原创 2017-08-13 15:44:16 · 6962 阅读 · 0 评论 -
Cuckoo Filter:设计与实现
对于海量数据处理业务,我们通常需要一个索引数据结构,用来帮助查询,快速判断数据记录是否存在,这种数据结构通常又叫过滤器(filter)。考虑这样一个场景,上网的时候需要在浏览器上输入URL,这时浏览器需要去判断这是否一个恶意的网站,它将对本地缓存的成千上万的URL索引进行过滤,如果不存在,就放行,如果(可能)存在,则向远程服务端发起验证请求,并回馈客户端给出警告。索引的存储又分为有序和无序转载 2017-12-17 10:40:05 · 3228 阅读 · 1 评论