
机器学习-周志华
沐沐余风
啦啦啦啦啦~
展开
-
第九章 聚类
1、聚类任务无监督学习 问题定义2、性能度量(1)外部指标Jaccard系数 FM指数 Randy指数(2)内部指标DB指数 Dunn指数3、距离计算基本性质 闵可夫斯基距离 欧式距离有序属性 无序属性4、原型聚类通过一组原型刻画k均值聚类 学习向量量化LVQ 高斯混合聚类5、密度聚类DBSCAN6、层次聚类AGNES转载 2017-10-08 19:56:29 · 392 阅读 · 0 评论 -
第四章 决策树
1、基本流程西瓜问题的决策过程: 根结点包含样本全集。 叶结点对应决策结果。(类别标记为样例中最多的类别) 其他结点对应属性测试,每个结点包含的样本集合根据属性测试的结果被划分到不同的子结点。2、划分选择即如何选择最优划分属性,使得决策树的分支结点所包含的样本尽可能属于同一类别。(1)信息增益信息熵(information entropy):度量样本集合纯度的指标。 假设样本集合D中第k转载 2017-10-08 00:53:13 · 583 阅读 · 0 评论 -
第三章 线性模型
1、基本形式线性模型(linear model):试图学得一个通过属性的线性组合来进行预测的函数 由d个属性来描述的示例x=(x1;x2;...;xd)\boldsymbol x=(x_1;x_2;...;x_d),线性模型可表示为: f(x)=w1x1+w2x2,...+wdxd+bf(\boldsymbol x)=w_1x_1+w_2x_2,...+w_dx_d+b 用向量形式写成: f转载 2017-10-07 22:44:05 · 593 阅读 · 0 评论 -
第一章 绪论
1、基本术语数据集 样本 属性or特征 样本空间 预测离散值–分类,二分类,多分类 预测连续值–回归监督学习:分类、回归 无监督学习:聚类泛化能力:generalization,模型适用于新样本的能力 通常假设全样本服从一个未知分布D,每个样本都是独立地从这个分布上采样获得的(独立同分布),一般来说,训练样本越多,我们得到的关于D的信息越多,这样通过学习获得具有较强泛化能力的模型。2、转载 2017-10-07 19:23:24 · 626 阅读 · 0 评论 -
第二章 模型评估与选择
1、经验误差与过拟合错误率(error rate):分类错误的样本数占总样本数的比例。 例如:m个样本中有a个样本分类错误,错误率=a/m,准确度=1-a/m 误差(error):预测输出与样本真实输出之间的差异 训练误差(trainning error)或经验误差(empirical error):在训练集上的误差 泛化误差(generalization):在新样本上的误差我们希望得到泛化转载 2017-10-05 14:50:05 · 1002 阅读 · 0 评论