生活中我们经常会遇到一些海量数据处理的问题,那么怎样的问题就算是海量数据了呢?来看以下这几个问题:
- 给定一个大小超过 100G 的文件, 其中存在 IP 地址, 找到其中出现次数最多的 IP 地址 。
- 给定100亿个整数, 找到其中只出现一次的整数(位图变形, 用两位来表示次数)。
- 有两个文件, 分别有100亿个query(查询词, 字符串), 只有1G内存, 找到两个文件的交集。
- 给上千个文件, 每个文件大小为1K - 100M, 设计算法找到某个词存在在哪些文件中。
首先第一个问题很明确有100G的数据;第二个问题100亿个整数所占的空间大小是:100亿*4byte = 40G;第三个问题100亿也就是10G……要知道我们日常使用的电脑也就是4G、8G的内存大小,远不能满足这里的100G、40G……的数据处理的需求。但是我们又必须要处理类似这样的问题,难道就束手无策了么!!!
为了解决类似这样的问题,我们可以借助之前学的哈希表,位图,布隆过滤器这样的数据结构,接下来我们来了解一下相关知识。
哈希表
详情请移步:哈希表
位图
详情请移步:位图
布隆过滤器
详情请移步:布隆过滤器
哈希切分
所谓的切分就很好理解,就是将一个东西切分开,将一个整体划分为多个更小的小整