
大规模数据处理、数据挖掘、机器学习
文章平均质量分 51
见光_分解
这个作者很懒,什么都没留下…
展开
-
海量数据处理常用方法总结
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。(一) 常见问题1. 给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL转载 2012-02-13 15:30:09 · 445 阅读 · 0 评论 -
经典的一致性hash算法解释
consistent hashing 算法早在 1997 年就在论文 Consistent hashing and random trees 中被提出,目前在 cache 系统中应用越来越广泛;1 基本场景比如你有 N 个 cache 服务器(后面简称 cache ),那么如何将一个对象 object 映射到 N 个 cache 上呢,你很可能会采用类似下面的通用方法计算 object 的转载 2012-02-17 17:09:30 · 358 阅读 · 0 评论 -
the year of big data一些入门
海量数据的查询、大量级联表的操作、机器扩容等等问题让传统的RDMS很吃力,于是转向了NOSQL领域。常规关系型数据库每秒可支持数千至万次的查询;内存数据库可以支持几万次到10万次查询;而key/value数据库建立在廉价的PC机上面,可以支持百万次的查询。key/value数据库表的设计不需要遵守严格的数据模式,是自由的。Hadoop:实现了一个分布式文件系统(Ha原创 2012-02-17 16:57:28 · 414 阅读 · 0 评论