大数据处理思路: 分而治之/Hash映射 + Hash_map统计 + 堆/快速/归并排序。
思路简介
分而治之/hash映射 + hash统计 + 堆/快速/归并排序,说白了,就是先映射,而后统计,最后排序:
分而治之/hash映射: 针对数据太大,内存受限,只能是: 把大文件化成(取模映射)小文件,即16字方针: 大而化小,各个击破,缩小规模,逐个解决
hash_map统计: 当大文件转化了小文件,那么我们便可以采用常规的hash_map(ip,value)来进行频率统计。
堆/快速排序: 统计完了之后,便进行排序(可采取堆排序),得到次数最多的IP。
本文探讨了在处理大数据时如何运用分治和哈希策略,包括使用哈希映射进行频率统计和使用堆进行排序。通过案例分析,如海量日志IP统计、热门查询提取和大文件中高频词的查找,解释了如何在内存限制下有效地解决问题。总结了多种解决方案,如哈希取模、堆排序和分布式处理。
订阅专栏 解锁全文
271

被折叠的 条评论
为什么被折叠?



