
统计学习方法
文章平均质量分 93
统计学习方法即机器学习方法,是计算机及其应用领域的一门重要学科。
阿波拉
这个作者很懒,什么都没留下…
展开
-
CART 算法——决策树
CART是英文“classification and regression tree”的缩写,翻译过来是分类与回归树,与前面说到的ID3、C4.5一致,都是决策树生成的一种算法,同样也由特征选择、树的生成以及剪枝组成,既可以用于分类也可以用于回归。CART算法由决策树的生成以及决策树剪枝两部分组成。决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。分类树与回归树的一个区别是:如果目标变量是,如果目标变量是。原创 2023-10-09 21:47:30 · 4994 阅读 · 0 评论 -
决策树算法——C4.5算法
C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化。通过信息增益率选择分裂属性,克服了ID3算法中通过信息增益倾向于选择拥有多个属性值的属性作为分裂属性的不足;能够处理离散型和连续型的属性类型,即将连续型的属性进行离散化处理;构造决策树之后进行剪枝操作;能够处理具有缺失属性值的训练数据。C4.5算法训练的结果是一个分类模型,这个分类模型可以理解为一个决策树,分裂属性就是一个树节点,分类结果是树的结点。每个节点都有左子树和右子树,结点无左右子树。原创 2023-10-09 14:52:44 · 2515 阅读 · 0 评论 -
信息增益,经验熵和经验条件熵——决策树
通俗上讲,信息增益就是在做出判断时,该信息对你影响程度的大小。比如你今天考虑要不要去郊游,你会考虑天气,距离,心情,是否空闲等等因素,非常纠结,但是如果信息中的天气显示今天暴雨,那大概率就不郊游了,那这个因素的信息增益就很强。原创 2023-10-08 11:42:59 · 1414 阅读 · 1 评论 -
极大似然估计概念的理解——统计学习方法
最大似然估计的概念的理解12.最大似然估计的概念的理解23.最大似然估计的概念的理解34.例子假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道罐中白球和黑球的比例,现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球再放回罐中。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?很多人马上就有答案了:70%。而其后的理论支撑是什么呢?我们假设罐中白球的比例是p原创 2023-10-04 12:00:59 · 444 阅读 · 0 评论 -
生成式模型和判别式模型区别
当存在隐变量(当我们找不到引起某一现象的原因的时候,我们就把这个在起作用但是无法确定的因素,叫“隐变量”) 时,仍可以利用生成方法学习,此时判别方法不能用。监督学习的任务就是从数据中学习一个模型,并用基于这个模型对给定的输入预测相应的输出。,然后从待识别的羊中提取特征 x,然后带入到模型中以判断这只羊是绵羊和山羊概率(比如 LR 中,结果大于 0.5 为正例,小于 0.5 为反例)。学习和计算过程比较复杂,由于学习了更多的样本信息,所以计算量大,如果我们只是做分类,就浪费了这部分的计算量;原创 2023-09-22 21:24:32 · 1263 阅读 · 0 评论 -
统计学习方法学习笔记(一)————统计学习方法概论
统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。,称其为统计学习方法的三要素,简称为。原创 2023-07-23 22:31:16 · 354 阅读 · 0 评论