机器学习一些基本概念

最新推荐文章于 2024-01-22 19:13:26 发布

原创最新推荐文章于 2024-01-22 19:13:26 发布 · 491 阅读

1 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

21 篇文章

订阅专栏

- 交叉熵损失函数

-ylny'-(1-y)ln(1-y') (y是label, y'是预测为正例的概率)

直观理解：正例时，y'越大越好，y'和lny'单调性一致，-ylny'越小越好；负例时，后半部分起作用，1-y'是预测为负例的概率，该概率越大越好，因此-(1-y)ln(1-y')越小越好；

一句话：正例时，预测为正的概率越大越好；负例时，预测为负的概率越大越好；

信息的熵角度理解：-plnp之和是熵(ln(1/p)是事件的信息量; pln(1/p)之和;信息量的期望; 完美编码时平均编码长度); 交叉熵plnq，使用了“估算”的编码后，得到的平均编码长度（可能不是最短的）；只有在估算的分布 q 完全正确时，平均编码长度才是最短的，交叉熵 = 熵；交叉熵反映预测分布和真实分布之间的误差；变量的不确定性越大(例如几个变量值的概率接近时)，熵也就越大，把它搞清楚所需要的信息量也就越大

交叉熵损失和KL散度：KL散度衡量两个分布的差异度（>=0)，为0表示两个分布完全相同，越大表示差异越大；KL散度不满足交换律；把KL散度里的p(x[i])换成固定的label向量，则可等价于交叉熵损失函数；

- 梯度

方向导数（任何方向都有）

沿着梯度方向，方向导数是最大的；（梯度是自变量空间的向量；对应到z=f(x,y)里，梯度就是xy平面上的向量）

-xgboost

PDF

损失 = 拟合损失 + 结构损失 (+ 常量)

拟合损失：L(label, y(t-1)+y(t))

泰勒展开，展开到二阶：约等于L(label, y(t-1)) + L'(label, y(t-1))y(t) + L''(label, y(t-1))y(t)^2 ; 第一项放到常数项里;

所有样本的L加和，加和顺序改一下，对t这个子树，最外面sum所有节点，对每个节点，sum落在其上所有样本的L'和L''，y(t)写成w

再加上结构损失sum(w^2)

最后是一个w的二次函数，求最小值即可，w取关于L'和L''的一个式子；

算每棵树的时候，对每个feature，先对值排序，然后从左到右统计sumL'和sumL''即可，边统计边更新最优Loss

对于回归问题，L(label,y)=(label-y)^2, 不需要泰勒展开即可求关于y的最小值；得到残差的概念

对于分类问题，L(label,y)=-label log(1/(1+e^(-y)) - (1-label) log(1/(1+e^y)) 对y求导得到L'=y-label; L''=y(1-y)

- 极大似然估计/ Maximum Likelihood / MLE

“模型已定，参数未知” (实际中，给定样本集，模型不一定是确定的，即模型是有概率的）

独立同分布假设：所有样本点都是独立的；由同一个分布产生；

p(θ|X) 经贝叶斯公式= p(X|θ)p(θ)/p(X)

假设p(θ)对所有θ都是一样的， max p(θ|X)即等价于max p(X|θ)

p(x1, x2, ...xn | θ) 独立同分布假设= p(x1|θ)p(x2|θ)...p(xn|θ)

投硬币问题：设正面概率为p，反面概率为(1-p)，得到p^M*(1-p)^N，求最大值，解出p

θ如果是高斯分布：高斯分布生成x的概率公式写上，连乘，等价于取log，求最大值，解出mean和variance

套路：

　　（1）写出似然函数；（θ生成x的概率，连乘起来)

　　（2）对似然函数取对数，并整理；

　　（3）求导数；(极值，令导数等于0）

　　（4）解似然方程

注意：最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率。这点与贝叶斯估计区别。这句话的意思是说最大似然估计的前提是已知模型，但实际问题中我们也许需要该模型出现的概率大小，比如上面的问题，统计全国人口身高时采用的是正态分布模型，但该做法并没有考虑正态分布模型自身的概率，也许可能服从其他分布模型，所以此处P(正态分布)<1，但在最大似然估计方法中我们认为P(正态分布)=1。（手势识别里，假设每个手势对应一个高斯分布，每个手势类别本身出现的概率p(θ)，当时我们认为都一样）

总结：给定一组已知样本，求一个分布参数，使得这个分布生成这组样本的概率是最大的；

-PCA

样本不动；坐标轴改动了；

样本向量，乘以单位向量，得到该样本在该向量上的投影；

主成分：样本们投影值，方差最大的那个轴；

cosθ，即两个向量的夹角余弦值，就是cosine距离公式（内积/两个模);

cosine距离，自带归一化的，适合两个向量用不同度量体系得到的情况；

点乘：一个向量在另一个向量上的投影；

-SVM

支持向量，是那些α不为0的样本点，他们的加权和就是分隔超平面w！

b是找一个在边界超平面上的点（α大于0），y-wx即求得b

正常推法：点到超平面距离y(wx+b) / (||w||^2), w和b可缩放至所有y(wx+b)>=1, 则式子写为求min{ 1/2 ||w||^2 } s.t. y(wx+b)>=1 (n组x,y, 所以n个约束条件）

求解步骤：目标函数是带不等式约束的最优化问题，用拉格朗日乘子法写成等价的min(w,b) max(α)问题；满足KKT条件，所以可以写成对偶问题max(α) min(w,b), 对w和b分别求偏导=0，解出w和b, 带入原方程，得到只含有α的式子（和一些约束条件，如∑α[i]y[i]=0, 0<=α[i]<=C）；用SMO算法，求解带约束的α使得式子max; α代入w, w代入wx+b=y[i]求得b, 分类函数sign(wx+b)可以完全写成φ(x[i])φ(x[j])的核函数形式；

损失函数：min {1/2 ||w||^2 + C∑ε} C越大，对ε越不能容忍，接近线性可分SVM; C越小，边界越宽，越容许越界（越两边的界不一定分错，越中间的界才会分错）；可以看成Hinge损失加上正则项1/2 ||w||^2

求解阿尔法，以及wx+b的方程，里面只有fan(x[i])点乘fan(x[j])，所以只需要计算核函数即可，不需要将样本映射到高维空间再点乘，省计算时间省存储空间。

高斯核函数，可视为将样本点映射到无穷维的空间上，在该空间找一个超平面使得最近点距离尽可能大Hinge损失尽可能小（分得更开）。决定该超平面的支撑向量们，如果是K个，则新样本的分类取决与和这K个支撑向量们的"软"K近邻（高斯函数决定1~0的权重），正例占优则分为正例，负例占优则分为负例。