
机器学习基础
文章平均质量分 90
x-jeff
AI爱好者
CVer
个人博客网站:https://shichaoxin.com
微信公众号:x-jeff的AI工坊
展开
-
【机器学习基础】第三十四课:聚类之距离计算
距离度量,闵可夫斯基距离,VDM(Value Difference Metric),MinkovDM,非度量距离原创 2025-05-26 20:33:49 · 784 阅读 · 0 评论 -
【机器学习基础】第三十三课:聚类之性能度量
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-05-14 20:05:43 · 803 阅读 · 0 评论 -
【机器学习基础】第三十二课:聚类之聚类任务
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-05-10 18:00:01 · 817 阅读 · 0 评论 -
【机器学习基础】第三十一课:集成学习之多样性
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-05-08 22:06:28 · 905 阅读 · 0 评论 -
【机器学习基础】第三十课:集成学习之结合策略
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-05-05 21:54:36 · 1176 阅读 · 0 评论 -
【机器学习基础】第二十九课:集成学习之Bagging与随机森林
由【机器学习基础】第二十七课:集成学习之个体与集成可知,欲得到泛化性能强的集成,集成中的个体学习器应尽可能相互独立;虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能具有较大的差异。给定一个训练数据集,一种可能的做法是对训练样本进行采样,产生出若干个不同的子集,再从每个数据子集中训练出一个基学习器。这样,由于训练数据不同,我们获得的基学习器可望具有比较大的差异。然而,为获得好的集成,我们同时还希望个体学习器不能太差。原创 2025-05-04 13:43:44 · 974 阅读 · 0 评论 -
【机器学习基础】第二十八课:集成学习之Boosting
Boosting算法要求基学习器能对特定的数据分布进行学习,这可通过“重赋权法”(re-weighting)实施,即在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。⚠️对无法接受带权样本的基学习算法,则可通过“重采样法”(re-sampling)来处理,即在每一轮学习中,根据样本分布对训练集重新进行采样,再用重采样而得的样本集对基学习器进行训练。一般而言,这两种做法没有显著的优劣差别。原创 2025-05-02 19:32:54 · 672 阅读 · 0 评论 -
【机器学习基础】第二十七课:集成学习之个体与集成
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-04-29 20:57:28 · 791 阅读 · 0 评论 -
【机器学习基础】第二十六课:EM算法
我们经常会从样本观察数据中,找出样本的模型参数。最常用的方法就是极大化模型分布的对数似然函数。但是在一些情况下,我们得到的观察数据有未观察到的隐含数据(学名是“隐变量”(latent variable)),此时我们未知的有隐含数据和模型参数,因而无法直接用极大化对数似然函数得到模型分布的参数。怎么办呢?这就是EM算法可以派上用场的地方了。EM算法也称期望最大化(Expectation-Maximum,简称EM)算法。原创 2025-04-27 20:26:16 · 1083 阅读 · 0 评论 -
【机器学习基础】第二十五课:贝叶斯网
贝叶斯网(Bayesian network)亦称“信念网”(belief network),它借助有向无环图(Directed Acyclic Graph,简称DAG)来刻画属性之间的依赖关系,并使用条件概率表(Conditional Probability Table,简称CPT)来描述属性的联合概率分布。贝叶斯网是一种经典的概率图模型。为了简化讨论,本文假设所有属性均为离散型。对于连续属性,条件概率表可推广为条件概率密度函数。具体来说,一个贝叶斯网BBB由结构GGG和参数Θ\Theta。原创 2025-04-25 21:12:21 · 1102 阅读 · 0 评论 -
【机器学习基础】第二十四课:半朴素贝叶斯分类器
即然将属性条件独立性假设放松为独依赖假设可能获得泛化性能的提升,那么,能否通过考虑属性间的高阶依赖(即对多个属性依赖)来进一步提升泛化性能呢?也就是说,将式(5)中的属性paipa_ipai替换为包含kkk个属性的集合paipai,从而将ODE拓展为kDE。需注意的是,随着kkk的增加,准确估计概率Pxi∣ypaiPxi∣ypai所需的训练样本数量将以指数级增加。因此,若训练数据非常充分,泛化性能有可能提升;原创 2025-04-24 19:31:33 · 1034 阅读 · 0 评论 -
【机器学习基础】第二十三课:朴素贝叶斯分类器
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-04-22 21:49:05 · 1083 阅读 · 0 评论 -
【机器学习基础】第二十二课:贝叶斯决策论
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-04-20 14:30:13 · 779 阅读 · 0 评论 -
【机器学习基础】第二十一课:支持向量机之核方法
无论SVM还是SVR,学得的模型总能表示成核函数κ(x,xi)\kappa (\mathbf x,\mathbf x_i)κ(x,xi)的线性组合。不仅如此,事实上我们有下面这个称为“表示定理”(representer theorem)的更一般的结论:表示定理: 令H\mathbb{H}H为核函数κ\kappaκ对应的再生核希尔伯特空间,∥∥h∥∥H\|\| h\|\|_{\mathbb{H}}∥∥h∥∥H表示H\mathbb{H}H空间中关于hhh的范数,对于任意单调递增函数Ω:[0,∞]↦R\Ome原创 2025-04-16 21:07:24 · 1044 阅读 · 0 评论 -
【机器学习基础】第二十课:支持向量回归
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-04-14 20:40:22 · 1081 阅读 · 0 评论 -
【机器学习基础】第十九课:支持向量机之软间隔与正则化
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-04-12 17:09:41 · 1070 阅读 · 0 评论 -
【机器学习基础】第十八课:支持向量机之核函数
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-04-07 21:06:31 · 1003 阅读 · 0 评论 -
【机器学习基础】第十七课:支持向量机之对偶问题
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-04-03 21:58:29 · 740 阅读 · 0 评论 -
【机器学习基础】第十六课:支持向量机之间隔与支持向量
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-03-30 19:40:11 · 1246 阅读 · 0 评论 -
【机器学习基础】第十五课:多变量决策树
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-03-26 19:54:02 · 368 阅读 · 0 评论 -
【机器学习基础】第十四课:决策树中的连续与缺失值
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-03-19 20:23:34 · 951 阅读 · 0 评论 -
【机器学习基础】第十三课:决策树的剪枝处理
剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有“预剪枝(prepruning)”和“后剪枝(postpruning)”。👉预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。👉后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。原创 2025-03-16 18:32:22 · 777 阅读 · 0 评论 -
【机器学习基础】第十二课:决策树的划分选择
在【机器学习基础】第十一课:决策树的基本流程一文中,我们可以看出决策树学习的关键是如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。原创 2025-03-12 20:27:28 · 1137 阅读 · 0 评论 -
【机器学习基础】第十一课:决策树的基本流程
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-03-08 17:54:34 · 342 阅读 · 0 评论 -
【机器学习基础】第十课:类别不平衡数据
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-03-04 21:11:10 · 587 阅读 · 0 评论 -
【机器学习基础】第九课:多分类学习
直接将二分类学习方法推广到多分类。基于一些基本策略,利用二分类学习器解决多分类问题。其中第2种方法更为常用,也是本文所要介绍的内容。‼️不失一般性,考虑N个类别C1C2CNC1C2...CN,多分类学习的基本思路是“拆解法”,即将多分类任务拆为若干个二分类任务求解。先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器。在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。本文主要介绍拆分策略。“一对一”原创 2025-03-01 15:09:20 · 921 阅读 · 0 评论 -
【机器学习基础】第八课:线性判别分析
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-02-25 22:59:45 · 991 阅读 · 0 评论 -
【机器学习基础】第七课:对数几率回归
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-02-23 14:03:28 · 1239 阅读 · 0 评论 -
【机器学习基础】第六课:线性回归
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-02-22 11:55:53 · 1065 阅读 · 0 评论 -
【机器学习基础】第五课:偏差与方差
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-02-20 21:33:07 · 1112 阅读 · 0 评论 -
【机器学习基础】第四课:统计学知识之假设检验
先使用某种实验评估方法测得学习器的某个性能度量结果,然后对结果进行比较,不能单纯地直接取得性能度量的值然后“比”大小,需要有统计学意义。在现实任务中我们并不知道学习器的泛化错误率,只能获知其测试错误率。因此本文以测试错误率作为性能度量。关于假设检验(以单样本t检验为例,样本均数为μ0\mu_0μ0,总体均数为μ\muμ):除此之外,还需要注意:假设检验常用的有两大类:如果总体分布为已知的数学形式,对其总体参数做假设检验称为参数检验。例如:t检验和F检验。⚠️使用t检验和F检验的两个前提条件:1)正态分布总原创 2025-02-16 23:07:59 · 1094 阅读 · 0 评论 -
【机器学习基础】第三课:模型性能度量
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-02-15 20:55:26 · 1022 阅读 · 0 评论 -
【机器学习基础】第二课:模型评估方法
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。原创 2025-02-15 19:33:31 · 946 阅读 · 0 评论 -
【机器学习基础】第一课:机器学习基本概念
首先,我们先来看一下机器学习的定义。机器学习的定义有很多,这里列出了比较常见的一个定义。机器学习的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。原创 2025-02-15 11:04:51 · 788 阅读 · 0 评论