最近看了刚发布的开放源代码项目mahout,实现了很多机器学习的算法和一些实用的系统,对于从事机器学习和web挖掘的人员来说是个很值得学习的资源。mahout是基于hadoop的,可以分布式运行,至此Lucence、Nutch、Mahout为构建开源的分布式的搜索引擎和Web挖掘提供了完整的支持,三剑合璧,威力无穷。Mahout的代码风格延续了Nutch的优良风格,代码可读性很强,包含了推荐系统、聚类中的kmeans,fuzzykmeans,
canopy, dirichlet,分类中的bayes、cbayes等算法的实现,以及交叉验证,计算正确率,各种距离,模型的构建等。还缺少像神经网络这个强大工具的实现,但未来很可能会加上。
canopy, dirichlet,分类中的bayes、cbayes等算法的实现,以及交叉验证,计算正确率,各种距离,模型的构建等。还缺少像神经网络这个强大工具的实现,但未来很可能会加上。
Mahout是一款基于Hadoop的机器学习库,提供了多种算法实现,包括推荐系统、聚类(k-means等)及分类(Bayes等),支持分布式运行,是进行Web挖掘和构建搜索引擎的有力工具。
217

被折叠的 条评论
为什么被折叠?



