机器学习分四类:
1:监督学习
2:理论学习
3:非监督学习
4:强化学习
——————————————————————————————————————
数据策略和技术方面书籍
初级理论的:
1)http://product.china-pub.com/197290#ml
2)http://product.china-pub.com/199149
工程性:
1)http://product.china-pub.com/3767774
2)http://product.china-pub.com/4608484
3)http://product.china-pub.com/3803865
还有两本我在看的:《机器学习导论》(注意作者是Alpaydin,这本书是手册,就是遇到聚类、多元统计、贝叶斯等基本概念不用再东翻西找。公司的8节ML课里一半时间在讲统计)《tensorflow实战google深度学习框架》 这个非常适合初学者上手。
http://open.163.com/special/opencourse/machinelearning.html 这是NG成名作。
书可以作为手册。反而一些课程很好,多上coursera。真遇到实际问题的时候,看论文和技术blog反而更有收获吧。一点浅见,也在努力学习中,和各位一起学习进步!
___________________________________________________________________________
Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。
GoogleCluster: http://research.google.com/archive/googlecluster.html
Chubby:http://labs.google.com/papers/chubby.html
GFS:http://labs.google.com/papers/gfs.html
BigTable:http://labs.google.com/papers/bigtable.html
MapReduce:http://labs.google.com/papers/mapreduce.html
很快,Apache上就出现了一个类似的解决方案,目前它们都属于Apache的Hadoop项目,对应的分别是:
Chubby-->ZooKeeper
GFS-->HDFS
BigTable-->Hbase
MapReduce-->Hadoop
目前,基于类似思想的Open Source项目还很多,如Facebook用于用户分析的Hive。