上周逛书店时看到这本书,看了看目录,觉得有点意思就买了。
一看这翻译过来的名字,就让人想到软件工程的东西,好像要讲怎么发挥团队的精神。
其实讲的是从大量用户数据中挖掘出一些有趣的东西。
里面的机器学习算法都是很经典的,没什么新的东西。不过应用到web上还是有些意思的。
作者认为机器学习不能解决所有问题(持保留意见,我认为机器能得到的训练数据太少了,而人类经过数千年的积累的先验知识,加上生活中强化学习来的直接经验),所以需要人的参与。
书中第一章举了两个例子,wikipedia和google的page rank算法。说一种依赖于人,一种是机器的算法。
其实我觉得数据的构建,如wikipedia和网页之间的连接关系,在目前阶段显然只能由人来实现。而从这些大量数据中发现有趣的规律,那就得用机器学习的算法了。比如page rank算法,比如从wikipedia中挖掘数据(华盛顿大学有个实验室做了不少的工作,http://turing.cs.washington.edu/publications.htm)。
看了第二章关于 collabrative filtering的,例子很不错,可惜python不是太懂,没细看代码。
btw,英文版的电子书可以在rapidshare下载到: http://rs179.rapidshare.com/files/64887089/OReilly.Programming.Collective.Intelligence.rar