
【入门学习ML】
文章平均质量分 80
一些ML的学习笔记和心得
PL_涵
路漫漫其修远兮,吾将上下而求索。在校大学生。更新自己学习知识的过程与心得。由于本人能力较低,如有不当之处,还请多多包容:)
展开
-
机器学习第四周(分类问题)
上图所示是一些分类问题的例子,我们在前面说过,分类是指我们的目的是预测一个离散值输出,比如上图例子中的判断肿瘤的良性与恶性,很显然,在进行预测之前,我们就知道输出结果的全部取值可能,即良性或者恶性两种情况,也就是说,这种问题下输出的取值是有限的,即输出是离散的,如下图所示。我们知道了监督学习的工作,就是通过有标签的数据训练,获得一个模型,然后通过构建的模型,给新数据添加上特定的标签,即在监督学习中,对于数据集中的每个样本,我们希望通过算法预测并得到“正确答案”。, 当输出小于这个值时,预测结果为。原创 2023-06-17 18:56:43 · 218 阅读 · 0 评论 -
机器学习第三周(正规方程——一步求参)
很显然,这是一个多元线性回归的问题,因为此时我们有四个特征量,根据我们之前介绍的多元线性回归,我们将参数和特征都表示成了向量的形式,同时,为了更好地表达我们的假设函数,我们在数据集中还添加了一列。,其中的元素会对应着每一个参数的最优值,即此时的参数会最小化代价函数,这一点在数学上已经被严格证明,当然,大家也可以自己在纸上证明一下。,直到梯度下降收敛到最小值。是以向量的形式存在的,即我们不只有一个参数,那么,我们如何将微积分的方法推广到多个参数的情况呢?之前我们介绍了多元线性回归,其中,我们的参数。原创 2023-06-10 18:45:57 · 240 阅读 · 1 评论 -
机器学习第二周(特征和多项式回归)
以房价问题为例,假设数据集中有两个特征,分别是房子的宽度和长度,我们就可以建立一个这样的线性回归模型,其对应的假设函数hθ(x)=θ0+θ1×frontage+θ2×depthh_θ(x)=\theta_0+θ_1×frontage+θ_2×depthhθ(x)=θ0+θ1×frontage+θ2×depth,frontagefrontagefrontage 对应 x1x_1x1,depthdepthdepth 对应 x2x_2x2,但我们不一定非要使用这两个特征来进行预测,我们可以自己创造新的原创 2023-06-04 21:08:41 · 146 阅读 · 0 评论 -
机器学习第二周(梯度下降的一些tips)
如果你画出此时代价函数的图像,那么就会像上图中所示的那样(我们之前介绍过两个特征对应的代价函数图像是三维空间的曲面,所以上图展示的是代价函数的等高线),你会发现代价函数等高线的形状是一种歪斜的椭圆形,如果你在这种代价函数上运行梯度下降的话,梯度下降会耗费一定的时间,因为梯度会在等高线之间来回波动,最终才收敛到全局最小值。观察上图,可以发现,在进行特征缩放之后,我们得到的代价函数的图像更加平滑了,这就会使得在进行梯度下降时,梯度下降的路线更趋向于一条直线,也就是说,梯度下降就会更快地收敛。原创 2023-06-02 22:19:04 · 109 阅读 · 0 评论 -
机器学习第二周(多元线性回归)
现在,我们介绍完了多元线性回归模型,很显然,相比于单特征的情况,特征数量的增多会使得模型变得复杂,同样也会降低我们训练模型的效率,比如在进行梯度下降时,所以之后我们会来谈谈如何提高多元梯度下降收敛的速度。但是在实际问题中,能够决定房价的因素(特征 / 变量)肯定不只有一个,所以我们要将之前介绍的线性回归模型推广到更一般的情况,即多元线性回归模型,它更符合实际情况。如上图所示,我们在原来的基础上,添加了三个特征 / 变量来描述房子,即房间卧室的数量、房屋的楼层以及房子的年龄。,即对于每一组训练样本,都有。原创 2023-05-31 20:39:53 · 142 阅读 · 0 评论 -
机器学习第二周(线性代数基础)
矩阵,数学术语。在数学中,矩阵(Matrix)是一个按照长方阵列排列的复数或实数集合,最早来自于方程组的系数及常数所构成的方阵。由m×nm × nm×n个数aija_{ij}aij排成的mmm行nnn列的数表称为mmm行nnn列的矩阵,简称m×nm × nm×n矩阵。记作:其中,m×nm×nm×n被称为矩阵的维数,即矩阵的行数乘以矩阵的列数,有时候,也会使用符号Rm×nR^{m×n}Rm×n来表示m×nm×nm×。原创 2023-05-29 16:31:37 · 106 阅读 · 0 评论 -
机器学习第一周(线性回归的梯度下降)
之前我们讨论到代价函数随着参数数量的增加,其对应的维度也会增加,在三维的图像中,我们可能存在着多个局部最小值,梯度下降最终会收敛到哪个最小值,取决于我们参数初始化的取值。之前我们介绍了线性回归模型与梯度下降法,很显然,梯度下降法可以帮助我们实现在线性回归模型中自动寻找代价函数最小值对应的参数,现在,我们要将代价函数和梯度下降结合得到线性回归的算法,它可以用直线模型拟合数据。这就是我们线性回归中的梯度下降算法,需要注意的是在更新参数时,我们需要遵循同步更新的原则。,可以看出,每一步梯度下降,在计算总和。原创 2023-05-28 19:36:33 · 101 阅读 · 0 评论 -
机器学习第一周(梯度下降法的定义及作用)
我们之前已经定义了代价函数JθJ(\theta)Jθ,在实现我们的优化目标θminimize\large_{\;θminimizeJθJ(\theta)Jθ时,我们希望通过一种高效的、软件可实现的算法,来自动找寻代价函数JθJ(\theta)Jθ的最小值对应的参数θ\thetaθ。所以我们引入可以将代价函数JθJ(\theta)Jθ最小化的梯度下降法,它不仅被用在线性回归问题上,还被广泛运用于机器学习的诸多领域。原创 2023-05-27 18:57:08 · 147 阅读 · 0 评论 -
机器学习第一周(代价函数的工作原理)
不同的取值,我们都可以在左边绘制出假设函数对应的直线,再根据代价函数的计算公式,我们就可以在右边的图像中绘制出代价函数对应的点,最终在。不同的取值,我们都可以在左边绘制出假设函数对应的直线,再根据代价函数的计算公式,我们就可以计算出代价函数对应的值,最终在。,相当于我们只选择了经过原点的假设函数,使用简化的代价函数可以帮助我们更好地理解代价函数的概念。在线性回归模型中,我们希望得到一条拟合数据集的直线,所以我们构造了上图所示的假设函数。,随着所选择参数的不同,我们会得到不同的直线。原创 2023-05-26 21:05:08 · 91 阅读 · 0 评论 -
机器学习第一周(线性回归模型与代价函数的数学定义)
对于房价问题,我们先给出其目标函数θ0θ1minmize\large_{\;θ0θ1minmize12m2m1∑i1m∑i1mhθxi−yi2hθxi−yi2其中,hθxiθ1∗xiθ0hθxiθ1∗xiθ0θ0θ1minmize\large_{\;θ0θ1minmize表示关于θ0和。原创 2023-05-25 21:31:04 · 221 阅读 · 0 评论 -
机器学习第一周(机器学习的定义)
对于某类任务(Task,简称T)和某项性能评价准则(Performance,简称P),如果一个计算机程序在T上,以P作为性能的度量,随着很多经验(Experience,简称E)不断自我完善,那么我们称这个计算机程序在从经验E中学习了。比如说,对于学习围棋的程序AlphaGo,它可以通过和自己下棋获取经验,那么它的任务T就是“参与围棋对弈”;它的性能P就是用“赢得比赛的百分比”来度量。“类似地,学生的任务T就是“上课看书写作业”;它的性能P就是用“期末成绩”来度量”原创 2023-05-25 19:14:59 · 147 阅读 · 0 评论 -
什么是过拟合(Overfitting)
将神经网络表达为数学模型,即y=Wx,训练网络的过程,即使网络学习得到各种参数W,并且保证误差较小一般机器想要尽量减小误差值,使对于训练数据的误差值为1,但当使用新的一组数据训练网络时,误差就会急剧上升,即无法表达除训练数据以外的其他数据一般导致过拟合问题,是由于数据量过少解决过拟合问题1.增加数据集2.使用正则化:过拟合时,网络训练的参数W变化率会很大,每训练一次网络会进行反向误差传播,来改变参数W,误差cost=(Wx-real y)的平方,即生成数减去真实数的平方。正则化的方法就是当W变化较大时,我们原创 2022-07-07 17:13:51 · 361 阅读 · 0 评论 -
如何设计损失函数
对于不同的信息,其包含的信息量是不同的,而在日常的经验中,当我们认为某个事件发生的可能性大越大的时候,反而它的信息量越小(因为没有什么好探讨的),但是当某个不太可能的事情发生了,我们会很惊讶,自然萌生出一探究竟的想法,会觉得此事定有蹊跷(也就是有很多信息),理论上,这样已经可以达到我们判断模型差距的目标了,但是观察式子中的绝对值,可以发现,绝对值在其定义域上并不是处处可导的,零点处就是它的一个跳跃间断点,所以为了不影响神经网络的误差传播,我们将其原式的每一项进行平方,也就是改为。...原创 2022-07-21 14:53:55 · 1776 阅读 · 0 评论 -
什么是激励函数(Activation Functions)
简而言之,激励函数是为了解决我们日常生活中无法用线性方程所概括的问题将人工神经网络转化为数学模型,可以看作是y=Wx,y是输出值,x是输入值,W就是y到x的一种映射关系(为一个参数)那么,对于线性问题,W是很容易计算出来的,而且它一般是一个常数值,对于非线性问题,在二维坐标系上,函数图像并不是一条直线,而是一条曲线,此时求出W是一个非常难的问题,所以引入激励函数,令y=AF(Wx),其中,AF()为激励函数,即一些非线性方程(relu、sigmoid、tanh等)激励函数也是可自己创建的,根据实际问题,但是原创 2022-07-07 16:03:35 · 1431 阅读 · 0 评论 -
损失函数及一般型(及梯度)
首先,回顾高数中对于梯度的定义设二元函数 在平面区域 上具有一阶连续偏导数,则对于每一个点 都可定出一个向量 该函数就称为函数 在点 的梯度,记作 或 即有: 其中 称为(二维的)向量微分算子或Nabla算子所以 设 是方向 上的单位向量则可得其方向导数为: 原创 2022-07-10 11:06:23 · 967 阅读 · 0 评论