
西瓜书笔记
lirt15
这个作者很懒,什么都没留下…
展开
-
西瓜书_chapter3_线性模型
3.1 基本形式f(x)=ω1x1+ω2x2+...+ωdxd+bf(x)=\omega_1 x_1 + \omega_2 x_2+... +\omega_dx_d+bf(x)=ω1x1+ω2x2+...+ωdxd+b其中,xix_ixi是x在第i个属性上的取值,也可以写成f(x)=ωTx+bf(x)=\omega^Tx+bf(x)=ωTx+b公式中的ω\omegaω比较直观...原创 2019-06-18 19:43:20 · 213 阅读 · 0 评论 -
西瓜书_chapter4_决策树
4.1 基本概念决策树的生成是一个递归的过程,在几种条件下会被终止,一是当前结点下的类别都一样,二是现有属性不能对剩下的样本进行区分,三是当前结点下没有样本。4.2 划分选择这一节研究的问题是如何选取上图中第8行的属性4.2.1 信息增益一种方法是依据信息熵来对某一属性的各个取值的纯度进行度量。对于一个样本集合DDD,其中第k类样本所占的比例是pkp_kpk,则信息熵的定义为Ent...原创 2019-06-19 01:37:55 · 314 阅读 · 0 评论 -
西瓜书_chapter8_集成学习
8.1 个体与集成集成学习通过构建并结合多个学习器来完成学习任务。集成学习一般先产生一组个体学习器,再用某种策略把它们结合起来。如果集成中只包含同类型的个体学习器,则称为同质的,反之称为异质的。集成学习通过将多个学习器进行结合,常常可以获得比单一学习器更好的性能,这对于弱学习器尤为明显。要获得好的集成,我们需要让每个分类器“好而不同”,即个体学习器之间要有一定的准确性,并且不同学习器之间要有...原创 2019-06-26 01:40:33 · 336 阅读 · 0 评论 -
西瓜书_chapter7_贝叶斯分类器
7.1 贝叶斯决策论对于分类任务,贝叶斯决策论是在所有相关概率都已知的理想情形下,考虑如何基于概率和误判损失来选择最优的类别标记。假设有N种可能的类别标记,即Y={c1,c2,...,cN}Y=\{c_1,c_2,...,c_N\}Y={c1,c2,...,cN},λij\lambda_{ij}λij是将一个真实标记为cjc_jcj的样本误分类为cic_ici所产生的损失,那么我们...原创 2019-06-22 20:53:16 · 297 阅读 · 0 评论 -
西瓜书_chapter9_聚类
9.1 聚类任务在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记样本的学习来揭示数据的内在性质及规律。本章中,我们探索其中常用的“聚类"算法。它的目的是把数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(cluster)。聚类既能作为一个独立的过程,去探索数据之间的内在联系,也可以作为分类等其他学习任务的前驱过程.9.2 性能度量聚类性能度量也叫做聚类“有效...原创 2019-06-28 01:48:14 · 461 阅读 · 0 评论 -
西瓜书_chapter10_降维与度量学习
10.1 k近邻学习(kNN)给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后根据这k个邻居的信息进行预测与前边的学习方法相比,kNN没有显式的训练过程,只有拿到测试样本以后才进行处理,我们将其称为懒惰学习(lazy learning),而哪些再训练阶段就对样本进行处理的方法叫做急切学习(eager learning)给定测试样本xxx,若其最近邻样本为zzz,则最近...原创 2019-06-29 04:20:50 · 446 阅读 · 0 评论 -
西瓜书_chapter11_特征选择与稀疏学习
11.1 子集搜索与评价如果我们想从特征集合中选区一个包含了所有重要信息的特征子集,如果我们没有任何先验知识,那么就只能遍历可能的子集,这会带来很高的计算复杂度;可行的一种做法是先产生一个“候选子集",评价它的好坏,然后在此基础之上产生下一个子集。这里涉及到两个关键环节,一是如何根据评价结果选择下一个候选子集,二是如何评价子集的好坏。第一个环节是子集搜索,...原创 2019-06-30 02:43:36 · 351 阅读 · 0 评论