
机器学习
文章平均质量分 55
UnknownFlower
这个作者很懒,什么都没留下…
展开
-
数据挖掘笔记(三)
数据挖掘-聚类 聚类是一种将一组观察值划分为不同子集且子集中的元素都有相似特征的方法。与分类不同的是聚类是一种无监督的方法。 距离指标(Distance Metrics) 欧氏距离(Euclidean Distance)几何距离 曼哈顿距离(Manhattan Distance)绝对轴距总和 马氏距离(Mahalanobis Distance)可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题 算法 K-Means(K均值) Sequential Leader(序列数据) Affi原创 2021-02-15 17:30:38 · 302 阅读 · 0 评论 -
机器学习笔记(一)
模型选择与评估-一种训练集一种算法-评估方法 泛化能力即模型对没有见过的数据的预测能力 trainning set训练集 testing set测试集 validation set验证集 测试集的保留方法 留出法 将数据集很简单的三七分或二八分,但是要注意训练集与测试集同分布,或者进行多次随机划分,训练出多个模型,最后取平均值 交叉验证法 k折交叉验证,将数据等分成几份,随机选择一份作为测试集,剩下的作为训练集,将测试结果取平均。缺点数据量较大时,对算力要求较高。 自助法(bootstrapping),有放原创 2021-02-15 17:27:38 · 222 阅读 · 0 评论