- 博客(4)
- 收藏
- 关注
原创 用统计学的算法证明数据挖掘并非什么都能挖的出来
这是一个在《Mining of MassiveDatasets》中提到的一个问题。2002年布什政府为了反恐的需求,提出了Total Information Awareness项目,据说后来在国会未通过。TIA项目的主要目的就是通过对美国国民的日常生活数据进行监控和分析,找出恐怖分子。我们这里讨论的是这个项目背后的技术。很多人认为给我足够的数据,我就能挖掘出知识,而没有考虑这个挖掘背后的统计学
2012-02-04 21:32:55
2273
1
原创 存储和数据研究领域研究调研
研究一个问题,第一步呢肯定是要了解这个领域在国外和国内的大学和研究机构里有哪些组在做类似的工作,他们的工作进展情况。最近了解了国内外在存储领域比较著名的研究机构。在存储领域比较著名的会议有:OSDI,SOSP(在系统领域两个最顶级会议),还有在存储领域的顶级会议FAST,另外就是几个Hot系统的会议HotOS, HotStorage, HotCloud国外大学的研究小组:CMU PDL
2012-01-14 22:29:47
1500
原创 SEDA高性能互联网服务器架构模型(1)
最近研究云存储相关的系统,Oceanstore和Cassandra都用到了SEDA编程模型。(注:关于Cassandra的代码结构和SEDA模型的使用情况可以参考这篇文章http://prettyprint.me/2010/05/02/understanding-cassandra-code-base/,里面还有一张时间序列图来说明程序的流程。) Staged Event Driven
2012-01-07 22:06:20
2638
1
原创 Spark与Hadoop计算模型比较分析
最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。那么Spark和Hadoop有什么不同呢?1,Spark的中间数据放到内存中,对于迭代运算效率比较高。Spark aims to extend MapReduce for iterativealgor
2011-12-20 20:14:17
3946
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人