
从Trie树/hash_map开始的海量数据处理
yanerhao
信雅之言,微言大意
展开
-
海量数据处理的常用方法
海量数据处理一般常见方法: 海量数据量很大时-->hash 海量数据的最大或者最小K个-->堆 海量数据的最值-->hash+内排序+归并 海量数据统计出现次数-->hash_map或者Trie树 文件之间共同值-->set 海量数据直接重复性判断-->bitmap/bloom filter 具体总结如下: 1. Bloom Filter Bloom Filter是一种空间效率很原创 2017-08-08 23:26:04 · 403 阅读 · 0 评论 -
hadoop之MapReduce
MapReduce1.0 MapReduce是Hadoop的一大核心,它是是一种编程模型,针对TB级别的海量数据并行完成数据的数据提取、分析和优化,它具有以下特征: 1 本身是一种编程模型框架,思想是分而治之 2 处理的对象是海量数据 3 在大规模集群,HDFS存储 4 并行计算 工作实体主要有4个 客户端:提交MapReduce作业 JobTracker:协调作业运行 Ta原创 2017-10-16 21:47:43 · 331 阅读 · 0 评论