
机器学习
文章平均质量分 76
DataScientist
这个作者很懒,什么都没留下…
展开
-
Spark与Hadoop计算模型比较分析
最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。那么Spark和Hadoop有什么不同呢?1,Spark的中间数据放到内存中,对于迭代运算效率比较高。Spark aims to extend MapReduce for iterativealgor原创 2011-12-20 20:14:17 · 3950 阅读 · 0 评论 -
用统计学的算法证明数据挖掘并非什么都能挖的出来
这是一个在《Mining of MassiveDatasets》中提到的一个问题。2002年布什政府为了反恐的需求,提出了Total Information Awareness项目,据说后来在国会未通过。TIA项目的主要目的就是通过对美国国民的日常生活数据进行监控和分析,找出恐怖分子。我们这里讨论的是这个项目背后的技术。很多人认为给我足够的数据,我就能挖掘出知识,而没有考虑这个挖掘背后的统计学原创 2012-02-04 21:32:55 · 2275 阅读 · 3 评论