- 博客(2)
- 资源 (17)
- 收藏
- 关注
转载 水库抽样算法
定义: 从N个记录中随机选择n个记录,但一开始并不知道N为多少。 算法: 1. 选择抽样算法: 可顺序扫描N个记录,对第t+1个记录以概率(n-m)/(N-t)来选择(m为已选得的记录数),但这样做必须事先顺序扫描一遍文件以获得N的大小。 2. 水库抽样算法: 2.1 若记录十分大 第一遍扫描文件时获得m>=n个
2013-03-14 20:49:11
3984
转载 大数据计算:如何仅用1.5KB内存为十亿对象计数
AddThis(前身为Clearspring)的数据分析副总监Matt Abrams在High Scalability上发表了一篇文章,介绍了他们公司如何应对大数据。在这篇文章中,AddThis仅仅用了1.5KB内存的内存就计算了十亿个不同的对象,Matt Abrams主要向我们详解了他们公司在处理过程中使用的方法。 以下为文章全文: 在AddThis,我们喜欢统计数据。对一组中不同元
2013-01-03 15:16:27
484
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人