100G大文件单机处理(在100G大文件中找到第一个不重复的字符串,16G内存限制)
Large-File-Processing问题:有一个 100GB 的文件,里面内容是文本要求:找出第一个不重复的词只允许扫一遍原文件尽量少的 IO内存限制 16G随机字符串,每行一个字符串 (长度范围从 0-100)。思路:100G字符串,0-100字节随机,最后换行占两个字节每行是一个byte数组,长度1-100不等(不加上换行符),一个字节8位,所以共有2^800...
原创
2019-07-12 02:31:11 ·
5665 阅读 ·
2 评论