
海量数据
hoaven
目前就职于蚂蚁金服,负责花呗、借呗和网商银行的智能风控。
展开
-
【海量数据处理】如何在大量的数据中找出不重复的整数?
题目描述在 2.5 亿个整数中找出不重复的整数。注意:内存不足以容纳这 2.5 亿个整数。解答思路方法一:分治法与前面的题目方法类似,先将 2.5 亿个数划分到多个小文件,用 HashSet/HashMap 找出每个小文件中不重复的整数,再合并每个子结果,即为最终结果。方法二:位图法位图,就是用一个或多个 bit 来标记某个元素对应的值,而键就是该元素。采用位作为单位来存储数据,可以大大节省存储空间。位图通过使用位数组来表示某些元素是否存在。它可以用于快速查找,判重,排序等。不是很清楚?我先举原创 2020-05-08 17:35:16 · 1022 阅读 · 0 评论 -
【海量数据处理】如何从大量数据中找出高频词?
如何从大量数据中找出高频词?题目描述有一个 1GB 大小的文件,文件里每一行是一个词,每个词的大小不超过 16B,内存大小限制是 1MB,要求返回频数最高的 100 个词(Top 100)。解答思路由于内存限制,我们依然无法直接将大文件的所有词一次读到内存中。因此,同样可以采用分治策略,把一个大文件分解成多个小文件,保证每个文件的大小小于 1MB,进而直接将单个小文件读取到内存中进行处理。...原创 2020-05-08 17:06:27 · 4154 阅读 · 1 评论 -
【海量数据处理】如何从大量的 URL 中找出相同的 URL?
如何从大量的 URL 中找出相同的 URL?题目描述给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。解答思路每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。5,000,000,000 * 64B ≈ 5GB * 64 = 320GB由于内存大小只有 4G,因此...原创 2020-05-08 16:45:38 · 1783 阅读 · 0 评论