- 博客(3)
- 收藏
- 关注
转载 机器学习笔记:交叉验证
机器学习中有监督的学习,通过标注data训练model时,通常采用交叉验证的方法选择模型参数。将有标注的data分为训练集,(交叉)验证集,测试集三份:机器学习的model中,有些模型参数是需要事先指定的,在training之前就是一个常量(与在training过程中通过minimize目标函数求得的参数不同),根据经验指定参数不一定靠谱,所以需要在training之前,做一个交叉验证来选择这个常...
2018-04-22 20:04:38
656
原创 K-Means++算法
传统的K-Means算法对初始聚类中心的选择非常敏感,而K-Means++就是针对这一点来对K-Means进行改进。K-Means++选择初始聚类中心的步骤:从输入的数据点集合中随机选择一个点作为第一个聚类中心对于数据集中的每一个点x,计算它与已选择的聚类中心中最近聚类中心的距离D(x)依据一个有权重的概率分布选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的...
2018-04-10 21:15:11
352
原创 k-means算法优缺点
K-Means的主要优点:1)原理简单,容易实现2)可解释度较强K-Means的主要缺点:1)K值的选取困难2)局部最优3)对噪音和异常点敏感4)需样本存在均值(限定数据种类)5)聚类效果依赖于聚类中心的初始化6)对于非凸数据集或类别规模差异太大的数据效果不好
2018-04-10 19:52:59
27823
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人