
数学
zhaosarsa
C'est la vie
Carpe diem
展开
-
【数学基础】拉格朗日乘子法
概述在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法。在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值(因为最小值与最大值可以很容易转化,即最大值问题可以转化成最小值问题)。提到KKT条件一般会附...原创 2018-08-04 14:47:06 · 14413 阅读 · 0 评论 -
【机器学习】次梯度(subgradient)方法
次梯度方法(subgradient method)是传统的梯度下降方法的拓展,用来处理不可导的凸函数。它的优势是比传统方法处理问题范围大,劣势是算法收敛速度慢。但是,由于它对不可导函数有很好的处理方法,所以学习它还是很有必要的。次导数设f:I→R是一个实变量凸函数,定义在实数轴上的开区间内。这种函数不一定是处处可导的,例如最经典的例子就是,在处不可导。但是,从下图的可以看出,对于定义域...转载 2018-08-15 16:08:01 · 59191 阅读 · 14 评论 -
【机器学习】L1正则化与L2正则化详解及解决过拟合的方法
在详细介绍L1与L2之前,先讲讲正则化的应用场景。正则化方法:防止过拟合,提高泛化能力所谓过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。造成过拟合的本质原因是模型学习的太过精密,导致连训练集中的样本噪声也一丝不差的训练进入了模型。所谓欠拟合(under-fitting),与过拟...原创 2018-08-13 17:29:56 · 14627 阅读 · 3 评论 -
【机器学习】最大熵模型(Maximum Entropy Model)
最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情...原创 2018-08-08 19:52:59 · 11156 阅读 · 0 评论 -
【数学基础】L2范数之解救矩阵病态
在之前的两篇文章岭回归以及L1正则化与L2正则化详解中都有提到L2范数。但对于L2范数在优化计算角度上都跳过了。故在这里新开一篇详细介绍一下,为什么L2范数可以解救病态矩阵,以及优化计算。病态系统现在有线性系统: , 解方程很容易得到解为: 。如果在样本采集时存在一个微小的误差,比如,将 A 矩阵的系数 400 改变成 401:则得到一个截然不同的解: 。当解集 x 对...原创 2018-08-14 00:06:07 · 9706 阅读 · 1 评论 -
【机器学习】坐标下降法(Coordinate descent)
coordinate-wise minimization(坐标朝向最小)coordinate-wise minimization介绍的是坐标下降法的理论依据。问题的描述:给定一个可微的凸函数,如果在某一点,使得在每一个坐标轴上都是最小值,那么是不是一个全局的最小值。形式化的描述为:是不是对于所有的都有这里的代表第个标准基向量。答案为成立。这是因为:但是问题来...转载 2018-08-16 13:18:38 · 19949 阅读 · 3 评论 -
【机器学习】LR与最大熵模型的关系
逻辑回归与最大熵模型MaxEnt的关系?逻辑回归跟最大熵模型到底有啥区别呢?简单粗暴 的回答是:逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应类别为二类时的特殊情况,也就是当逻辑回归类别扩展到多类别时,就是最大熵模型。在进行下面推导之前,先上几个数学符号定义,假定输入是一个n维空间的实数向量:表示输入数据,其中。其中表示第条记录。同时使用来表示记录中的某个特征,或者对应...转载 2018-08-17 19:56:11 · 4347 阅读 · 1 评论 -
【数学基础】矩阵的特征向量、特征值及其含义
在线代课上,老师会教我们怎么求矩阵的特征值与特征向量。但是并不会讲特征值与特征向量到底有着什么样的几何意义或者物理意义,或许讲了但也比较模糊。矩阵的特征值与特征向量在各种机器学习算法与应用场景中都有出现,每次出现都有着其独特的意义。在这里也只是简述一二。一、方阵的特征值与特征向量1、特征值与特征向量的定义:定义1:设是阶方阵,若数和维非零列向量,使得成立,则称是方阵的一个特征值,为方阵...原创 2018-08-31 11:37:08 · 119078 阅读 · 12 评论 -
【数学基础】线性方程组解情况整理
一、非齐次线性方程组,无解,多解,唯一解非齐次线性方程组,就是方程组的等式右边不为0的方程组,系数加上方程等式右边的矩阵,叫做增广矩阵。【例1】求解下列线性方程组化简后的有效方程组个数小于未知数个数,有多个解。第一步,先列出增广矩阵:第二步,用高斯消元法化简,化简成阶梯矩阵先把第2行换到第1行 第2行减第1行的2倍,第3行减第1行的3倍,得到 第3行减...转载 2018-08-29 12:15:03 · 88403 阅读 · 2 评论 -
【线性代数】理解矩阵变换及行列式的本质
参考:行列式的本质是什么?这篇文章的结构是: 线性变换的几何直观 实现线性变换的矩阵 行列式 一、线性变换的几何直观线性变换的几何直观有三个要点: 变换前是直线的,变换后依然是直线 直线比例保持不变 变换前是原点的,变换后依然是原点 比如说旋转:比如说推移:这两个叠加也是线性变换:二、实现线性变换的...原创 2018-09-01 13:22:31 · 16822 阅读 · 2 评论 -
【线性代数】通俗的理解奇异值以及与特征值的区别,还有奇异值分解及其应用
奇异值分解,就是把矩阵分成多个“分力”。奇异值的大小,就是各个“分力”的大小。之前在介绍矩阵特征值与特征向量的时候,也是以运动作为类比。一、通俗理解奇异值1、翻绳对于翻绳的这个花型而言,是由四只手完成的:我们可以认为这个花型是由两个方向的力合成的:容易想象,如果其中一个力(相比另外一个力而言)比较小的话,那么绳子的形状基本上由大的那个力来决定:2、奇异值...转载 2018-09-02 00:02:08 · 63199 阅读 · 28 评论 -
【机器学习】贝叶斯线性回归(最大后验估计+高斯先验)
引言如果要将极大似然估计应用到线性回归模型中,模型的复杂度会被两个因素所控制:基函数的数目(的维数)和样本的数目。尽管为对数极大似然估计加上一个正则项(或者是参数的先验分布),在一定程度上可以限制模型的复杂度,防止过拟合,但基函数的选择对模型的性能仍然起着决定性的作用。上面说了那么大一段,就是想说明一个问题:由于极大似然估计总是会使得模型过于的复杂以至于产生过拟合的现象,所以单纯的使用极大...原创 2018-08-07 23:48:20 · 42241 阅读 · 2 评论 -
【数学基础】参数估计之贝叶斯估计
从统计推断讲起统计推断是根据样本信息对总体分布或总体的特征数进行推断,事实上,这经典学派对统计推断的规定,这里的统计推断使用到两种信息:总体信息和样本信息;而贝叶斯学派认为,除了上述两种信息以外,统计推断还应该使用第三种信息:先验信息。下面我们先把是那种信息加以说明。总体信息:总体信息即总体分布或总体所属分布族提供的信息。譬如,若已知“总体是正态分布”等等 样本信息:即所抽取的样本的所有...原创 2018-08-07 16:50:35 · 61383 阅读 · 1 评论 -
【数学基础】参数估计之最大后验估计(Maximum A Posteriori,MAP)
前言,MLE与MAP的联系在前一篇文章参数估计之极大似然估计中提到过频率学派和贝叶斯学派的区别。如下图在极大似然估计(MLE)中,我们求参数,通过使得似然函数最大,此时为一个待估参数,其本身是确定的,即使目前未知。MLE求的是怎样的参数可以让事件集发生的概率最大。通过不断改变固定的参数去寻找一个极大值。在最大后验估计(MAP)中,引用贝叶斯学派的思想,将参数看成一个随机变量...原创 2018-08-07 12:46:53 · 20881 阅读 · 2 评论 -
【数学基础】KKT条件
继前面讲的拉格朗日乘子法。拉格朗日乘子法主要用于求解等式约束的问题,当约束加上不等式之后,情况变得更加复杂,首先来看一个简单的情况,给定如下不等式约束问题:对应的 Lagrangian 与图形分别如下所示:上面这段话可能描述的不够清楚。我总结一下。上图左表达的是,当我们要找的局部最优解(或者全局最优解)刚好就在约束条件的可行区域内部(这个时候最优解对应的是g(x)<...原创 2018-08-04 17:06:50 · 39353 阅读 · 8 评论 -
【数学基础】拉格朗日对偶
继介绍完拉格朗日乘子法与KKT条件之后,再来讲讲拉格朗日对偶变换。为接下来彻底搞清楚SVM做好铺垫。在优化理论中,目标函数会有多种形式:如果目标函数和约束条件都为变量的线性函数, 称该问题为线性规划; 如果目标函数为二次函数, 约束条件为线性函数, 称该最优化问题为二次规划; 如果目标函数或者约束条件均为非线性函数, 称该最优化问题为非线性规划。每个线性规划问题都有一个与之对应的对偶问题,...原创 2018-08-04 18:58:01 · 12878 阅读 · 3 评论 -
【机器学习】SVM核方法
Kernel Trick在 SVM 中引入核方法便可使得 SVM 变为非线性分类器,给定非线性可分数据集 ,如下图所示,此时找不到一个分类平面来将数据分开,核方法可以将数据投影到新空间,使得投影后的数据线性可分,下图给出一个 的映射,原空间为 ,新空间为 ,根据图可以看出映射后样本点的变化,此时样本便为线性可分的了,直接用 分类即可。上图是一个 的映射,但一般情况下,特征空间...原创 2018-08-05 16:32:37 · 2074 阅读 · 0 评论 -
【机器学习】SVM之Hinge Loss,从LR到SVM,SVM核函数进一步理解
Hinge Loss 解释SVM 求解使通过建立二次规划原始问题,引入拉格朗日乘子法,然后转换成对偶的形式去求解,这是一种理论非常充实的解法。这里换一种角度来思考,在机器学习领域,一般的做法是经验风险最小化 (empirical risk minimization,ERM),即构建假设函数(Hypothesis)为输入输出间的映射,然后采用损失函数来衡量模型的优劣。求得使损失最小化的模型即为最...原创 2018-08-05 20:32:56 · 9010 阅读 · 0 评论 -
【机器学习】SVM之回归模型
review先回顾一下在基本线性可分情况下的SVM模型:分类svm模型中要让训练集中的各个样本点尽量远离自己类别一侧的支持向量。其实回归模型也沿用了最大间隔分类器的思想。误差函数对于回归模型,优化目标函数和分类模型保持一致,依然是,但是约束条件不同。我们知道回归模型的目标是让训练集中的每个样本点,尽量拟合到一个线性模型上。对于一般的回归模型,我们是用均方误差作为损失函数的,...原创 2018-08-06 00:46:01 · 30256 阅读 · 1 评论 -
【机器学习】线性回归之Normal Equation(矩阵求导与线性代数视角)
Normal Equation之前我们用梯度下降来求解线性回归问题的最优参数,除此之外我们还可以用正规方程法(Normal Equation)来求解其最优参数。Normal Equation方法的推导有两种方式矩阵求导(matrix derivative)其中其中X的行表示样本,列表示特征:令导数等于零:因此:关于矩阵求导的公式可以参见:常用的向量矩...转载 2018-08-06 14:59:33 · 14476 阅读 · 11 评论 -
【数学基础】概率论——p(x|\theta)和p(x;\theta)的区别
代表条件概率时,此时作为一个随机变量。当不代表条件概率时于等价,此时不是一个随机变量,而是一个待估参数(是固定的,只是当前未知)。两者都表示在给定参数时的概率。以下为转载求解最大似然估计时发现有两种表示方法 from:Gregor Heinrich - Parameter estimation for text analysis 有上述两种方法表示的原因 ...转载 2018-08-06 23:06:05 · 3142 阅读 · 0 评论 -
【数学基础】参数估计之极大似然估计
背景先来看看几个小例子:猎人师傅和徒弟一同去打猎,遇到一只兔子,师傅和徒弟同时放枪,兔子被击中一枪,那么是师傅打中的,还是徒弟打中的? 一个袋子中总共有黑白两种颜色100个球,其中一种颜色90个,随机取出一个球,发现是黑球。那么是黑色球90个?还是白色球90个?看着两个小故事,不知道有没有发现什么规律...由于师傅的枪法一般都高于徒弟,因此我们猜测兔子是被师傅打中的。随机抽取一个球,是...原创 2018-08-07 00:05:20 · 17268 阅读 · 3 评论 -
【机器学习】Lasso回归(L1正则,MAP+拉普拉斯先验)
前言目前这个方法还没有一个正规的中文名,如果从lasso这个单词讲的话,叫套索。那么套索是啥呢,就是套马脖子的东西,见下图: 就是拿这个东西把动物脖子套住,不要它随便跑。lasso 回归就是这个意思,就是让回归系数不要太大,以免造成过度拟合(overfitting)。所以呢,lasso regression是个啥呢,就是一个回归,并且回归系数不要太大。具体的实现方式是加了一个L1正...原创 2018-08-14 20:37:20 · 6242 阅读 · 0 评论 -
【机器学习】主元分析(PCA)以及与SVD的区别联系
参考文章:如何理解主元分析(PCA)?主元分析的目的是降低数据的维度。主元分析也就是PCA,主要用于数据降维。1 什么是降维?比如说有如下的房价数据:这种一维数据可以直接放在实数轴上:不过数据还需要处理下,假设房价样本用表示,那么均值为:然后平移到以均值为原点:以为原点的意思是,以为0,那么上述表格的数字就需要修改下:这个过程称为“中心化”。...转载 2018-09-02 17:00:22 · 1562 阅读 · 0 评论