
AI
文章平均质量分 88
魔理沙偷走了BUG
万年的铁树要开花
展开
-
【简博士统计学习方法】第2章:3. 感知机——学习算法之对偶形式:算法解说
xiyi)w←wηyixi;b←bηyiw00b00(xiyi)niwbαiyixiαiyiαiniηiwi1∑Nαiyixi;bi1∑NαiyiTx1y1x2y2⋯xNyN}xi∈X⊆Rny∈Y1−1。原创 2025-01-13 19:30:39 · 755 阅读 · 0 评论 -
【简博士统计学习方法】第2章:3. 感知机——学习算法之原始形式:算法解说
是统计学中的一个重要概念,它指的是通过样本数据来推测总体(整个群体)中某些未知的特征值(比如平均值、方差等)的过程。【注】采用不同的误分类点顺序,所得到的解是不同的,随机选取的误分类点导致结果也具有一定的随机性。我们选取随机梯度下降法进行迭代计算。迭代到第7次之后就没有误分类点了。原创 2025-01-12 23:24:54 · 661 阅读 · 0 评论 -
【简博士统计学习方法】第2章:2. 感知机——准备知识:梯度下降法
(Gradient Vector)是多元函数的一个重要概念,它反映了该函数在某一点处的最大变化率的方向和大小。梯度不仅指示了函数增长最快的方向,还给出了沿该方向变化的速率。现在我们假设有一个可微函数,我们想找到这个可微函数的最小值,也就是相当于找到山的山底,每次找到该点相应的梯度,沿着梯度的反方向往下走,这就是使函数值下降最快的方向。:在多元函数(即函数的自变量是多个变量)中,凸函数的定义和一元函数的定义类似,但需要考虑函数的定义域以及函数在多个方向上的行为。方向导数与梯度(gradient)密切相关。原创 2025-01-08 13:29:00 · 1063 阅读 · 0 评论 -
【简博士统计学习方法】第2章:1. 感知机——模型介绍与学习策略
(比如特征空间是一维的,那么一个实例就是一个实数,区分正负类的就是实数轴上的一个点;如果特征空间是二维的,一个实例就是二维空间中的一个点,我们用来区分正负类的分离超平面就是一条直线;如特征空间是三维的,分离超平面应该就是一个平面了;特征空间是四维的,分离超平面应就是一个三维立体图形,依此类推,当特征空间是。在算法中,中止条件就是不存在误分类点,当不存在误分类点的时候,此式自然为0,所以。中的误分类点越少,此式越来越小,如果没有误分类点,则该。维度下,就是一个二维空间,二维空间下的超平面就是直线。原创 2025-01-08 11:10:08 · 785 阅读 · 0 评论 -
【简博士统计学习方法】第1章:8. 监督学习应用
输入和输出变量为连续变量的时候则为回归问题。它反映的是输入和输出变量之间的映射关系。相应的学习过程就等价于函数的拟合。之前拟合函数的案例就属于回归问题。8.3.2 方法与应用类型按输入变量个数:一元回归、多元回归;按输入和输出变量之间关系:线性回归、非线性回归。损失函数:平方损失应用:商务领域。原创 2025-01-08 10:00:44 · 557 阅读 · 0 评论 -
【简博士统计学习方法】第1章:7. 生成模型与判别模型
在生成模型中,隐变量(latent variable)是指那些我们无法直接观察到的变量。它们是模型中用于生成观测数据的潜在因素,通常可以理解为数据的潜在结构或潜在原因。隐变量的存在帮助生成模型解释数据的生成过程,而这些隐变量本身并不直接出现在我们收集的数据中。【注】生成模型需要数据量大才能还原联合概率分布。生成模型能很好地处理隐变量的情况。利用所得到的模型对输入的变量进行预测,通过学习数据得到模型的方法又可以分为生成方法和判别方法。:朴素贝叶斯法、隐马尔科夫模型(时间序列,不太懂,没接触)。原创 2025-01-07 13:42:14 · 528 阅读 · 0 评论 -
【简博士统计学习方法】第1章:6. 泛化能力
在现实生活中,我们经常通过测试数据集来评价某一学习方法的泛化能力,但是测试数据集里包含的样本是有限的,所以仅仅用测试数据集去评价学习方法(模型)的泛化能力,有的时候并不可靠,这时候我们就要从理论出发,对学习方法的泛化能力进行一个评价。如果现在有两种学习方法,学习方法a所得到的模型具有比学习方法b所得到的模型的泛化误差小,那么这时候学习方法a就会更有效果,这就是通过泛化误差来反映学习方法的泛化能力。趋于0,那么泛化误差上界就是趋于0的(也就是说样本无穷多,模型的泛化能力就越强,因为它见过的特征多),当。原创 2025-01-07 13:19:58 · 777 阅读 · 0 评论 -
【简博士统计学习方法】第1章:5. 正则化与交叉验证
假如我们将样本70%作为训练集,30%作为测试集,那么在不同的情况下,我们可以通过训练集得到不同的学习模型。那么将学习到的模型通通放到测试集上去计算它的测试误差,选择测试误差最小的模型则是最优模型。:在现实情况中,样本数据通常是不充足的,那么为了选择一个好的模型,就可以采用交叉验证的方法,交叉验证的基本思想是重复使用数据以解决数据不足的这种问题。的时候都能很好地拟合数据,因为它的训练误差几乎为0,只有三次多项式是最简单的,根据奥卡姆剃刀原理应选择三次多项式来拟合数据集。作为测试集,得到一个训练模型。原创 2025-01-07 10:43:26 · 1041 阅读 · 0 评论 -
【简博士统计学习方法】第1章:4. 模型的评估与选择
4. 模型的评估与选择4.1 训练误差与测试误差假如存在样本容量为NNN的训练集,将训练集送入学习系统可以训练学习得到一个模型,我们将这么模型用决策函数的形式表达,也就是y=f^(x)y=\hat{f}(x)y=f^(x),关于模型的拟合是否好坏,可以通过训练集计算训练误差进行衡量。而关于模型的预测效果也就是对未知数据预测效果的好坏,可以通过测试集来衡量,我们将测试集里所有的输入都放到预测系统里面,通过训练所得到的模型,就可以计算出一些列的预测值y^i=f^(xi)\hat{y}_i=\hat{f}原创 2025-01-07 10:00:01 · 1118 阅读 · 0 评论 -
【简博士统计学习方法】第1章:3. 统计学习方法的三要素
大数定律是概率论中的一个重要定理,描述了在大量独立、同分布的随机试验中,随着试验次数的增加,样本均值会趋近于期望值。这就像是抛硬币实验,当抛掷次数很少时,正面和反面的比例可能会偏离 50%,但随着投掷次数的增加,正面和反面的比例会趋近于 50%。关于监督学习的策略,追根究底就是选取一个目标函数,或者是经验风险,或者是结构风险,通过优化这个目标函数,达到一个学习模型的目的。时,经验损失趋近于风险函数。一般是有限的,有的时候甚至会很小,所以仅仅用经验风险来估计风险函数效果并不理想,所以需要对其进行一定的矫正。原创 2025-01-06 21:58:35 · 1183 阅读 · 0 评论 -
【简博士统计学习方法】第1章:2. 统计学习方法的基本分类
是一个样本,通过训练集学习训练出一个模型来,这个模型既可以表达成条件概率分布的形式,也可以表达成决策函数的形式。输入是每一个实例,输出是颜色类别,输入和输出成对的出现就称之为是一个样本,将这些样本作为训练集进行一个监督学习。图里的点称作是一个实例,可以通过坐标来表达,颜色类别不同(颜色类别称为输出)只含有少量标注,大多数没有标注(利用已标注的数据来学习去标注未标注的数据)的机器学习问题,其本质是学习输入到输出的映射的统计规律。:学习一个输入到输出的映射,这一映射以模型表示。所学习的数据都是已经标注过的;原创 2025-01-06 20:11:02 · 1136 阅读 · 0 评论 -
【简博士统计学习方法】第1章:1. 统计学习的定义与分类
统计学习(Statistical Machine Learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。参数化模型适用于简单问题,非参数化模型适用于复杂问题。在线学习,每次接收一个样本,然后学习,不断重复。批量学习,一次接收一个批量,然后学习进行预测。原创 2025-01-06 18:48:08 · 581 阅读 · 0 评论