论文解读 Clustering Very Large Multi-dimensional Datasets with MapReduce [KDD 2011]

本文介绍了一种名为BoW的算法,该算法在大规模数据环境下动态选择最优策略,提高了聚类效率。通过实验验证了其有效性和可扩展性,并基于2011年业内最大规模的真实数据进行了验证,展现了算法的创新性和实用性。

PPT资源

已制成Latex Beamer版的Slides,下载链接

本文总结

本文贡献

  • 提出 BoW 算法,通过不同的情况下,动态选择更佳的方法,达到提高效率的目的

  • 通过实验验证了算法的有效性和可规模化

  • 基于真实数据进行实验,而且是当时 (2011) 业内最大规模的数据,可信度高

个人看法

  • 充分利用了在海量数据下,2-8 定律所呈现出的数据特点,针对性想出有创新的方法
  • 基于系统层面的创新,而不是拘泥于单纯的聚类算法层面,简单实用且具有普遍性
  • 一些实验客观性不够,只展示一部分有效的结果
  • 有的评价指标没有定义清楚
  • 一些很重要的参数,如采样率等没有给出相关实验,说明它对聚类的影响
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值