- 博客(3)
- 收藏
- 关注
原创 机器学习———聚类的性能度量指标与距离度量计算
聚类,是无监督学习的代表,将数据集D划分成了若干个不相交的子集,称为簇,我们总体的目标是“簇间相似性越低越好,簇内相似性越高越好”。1.性能度量指标——外部指标外部指标:聚类结果与某个“参考模型”进行比较。对数据集,假设通过聚类划分为,参考模型的划分为:,令和分别表示和的标记。则令可以看出Jaccard系数(JC) ...
2018-08-14 09:51:59
2625
原创 机器学习——模型选择和评估方法
一. 模型选择通常我们在机器学习的过程中希望能够通过实验测试来对学习器的泛化误差进行评估,就需要测试集来作为学习结果的依据。那么给了一个数据集D,如何划分训练集和测试集呢?1. 留出法(hold-out)直接将数据集D划分为两个互斥集合S和T,即, 然后在S上训练网模型后,用T 来做测试。2. 交叉验证法(cross validation)现将数据集D划分为k个大小相似的互斥子...
2018-08-13 14:45:43
850
原创 机器学习算法——逻辑回归(logistic regression)(原理与实现)
基本概念逻辑回归是一种广义的线性回归,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。对于一个回归问题,给定的d个属性描述x=(x1;x2;x3;...;xd)所形成的的 ...
2018-08-13 09:47:15
563
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人