1.数据量大于10万采用随机梯度下降,效果不错,大大的节约时间成本
2.数据量小于1万的可以采用kmeans聚类算法,无效果采用特殊聚类或者GMM模型。大于1万的采用minibatch kmeans算法。使用kmeans聚类的前提是聚类类别数量知道。
3.聚类类别数量未知的情况下,数据量小于1万时,采用meanshift或者VBGMM模型,大于1万时,就咩有什么有效的算法
4.聚类算法是建立在没有标记样本的数据,属于无监督模型
本文探讨了不同数据量下机器学习算法的选择,包括数据量小于10万时采用随机梯度下降,小数据量的聚类算法如kmeans、meanshift,有标签数据的线性SVM、朴素贝叶斯,以及回归和预测问题中的各种方法。强调了数据量对算法效果的影响,指出样本数量至少需大于50。
1339

被折叠的 条评论
为什么被折叠?