
数据挖掘
文章平均质量分 79
shineHoo
这个作者很懒,什么都没留下…
展开
-
数据挖掘——海量数据面试题整理
<br /><br />海量数据面试题整理来源: 张晓磊Lance的日志<br />1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?<br />方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。<br />s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。<br />转载 2010-08-27 19:54:00 · 4992 阅读 · 0 评论 -
Bloom Filter概念和原理
<br />Bloom Filter概念和原理<br />焦萌 2007年1月27日<br /> <br />Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Fi转载 2010-09-01 13:25:00 · 672 阅读 · 0 评论 -
大数据量、海量数据处理方法总结
<br /><br />大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。<br /><br />下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。<br /><br />1.Bloom filter<br /><br />适用范围:可转载 2010-09-01 10:59:00 · 1963 阅读 · 0 评论 -
Hadoop -- HDFS 原理、架构与特性介绍
阅读目录 1:当前HDFS架构详尽分析 2:HDFS文件读取的解析 3:HDFS文件写入的解析 4:副本机制 5:HDFS负载均衡 6:HDFS机架感知 7:HDFS访问 8:HDFS 健壮性 9:HDFS 文件删除恢复机制 10:HDFS 分布式缓存(DistributedCache )11:HDFS缺点 本文主要讲述 HDFS原理-架构、副本机制、HDFS转载 2015-07-16 15:10:11 · 4069 阅读 · 0 评论 -
Spark:一个高效的分布式计算系统
概述 什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习转载 2015-09-17 15:05:19 · 3176 阅读 · 0 评论