
海量数据处理
文章平均质量分 93
卡奥斯道
技术时代的你,愿为技术付出
展开
-
MapReduce+HDFS,海量数据去重的五大策略
随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据删除对于数据本身并没有改变,只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。举个简单的例子:在专门为电信运营商定制的呼叫详单去转载 2017-10-15 11:51:46 · 503 阅读 · 0 评论 -
海量数据去重之SimHash算法简介和应用
转:http://blog.youkuaiyun.com/u010454030/article/details/49102565SimHash是什么SimHash是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling 》中提到的一种指纹生成算法或者叫指纹提取算法,被Google广泛应用在亿级的网页去重的Job中,作为l原创 2017-10-15 11:54:21 · 1170 阅读 · 0 评论 -
海量数据处理-分而治之和hash映射
转:http://blog.youkuaiyun.com/yangquanhui1991/article/details/52172768什么是Hash Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的转载 2017-10-15 11:56:23 · 456 阅读 · 0 评论