机器学习一些基本概念

- 交叉熵损失函数

-ylny'-(1-y)ln(1-y')         (y是label, y'是预测为正例的概率)

直观理解:正例时,y'越大越好,y'和lny'单调性一致,-ylny'越小越好;负例时,后半部分起作用,1-y'是预测为负例的概率,该概率越大越好,因此-(1-y)ln(1-y')越小越好;

一句话:正例时,预测为正的概率越大越好;负例时,预测为负的概率越大越好;

信息的熵角度理解:-plnp之和是熵(ln(1/p)是事件的信息量; pln(1/p)之和;信息量的期望; 完美编码时平均编码长度); 交叉熵plnq,使用了“估算”的编码后,得到的平均编码长度(可能不是最短的);只有在估算的分布 q 完全正确时,平均编码长度才是最短的,交叉熵 = 熵;交叉熵反映预测分布和真实分布之间的误差; 变量的不确定性越大(例如几个变量值的概率接近时),熵也就越大,把它搞清楚所需要的信息量也就越大

交叉熵损失和KL散度:KL散度衡量两个分布的差异度(>=0),为0表示两个分布完全相同,越大表示差异越大;KL散度不满足交换律;把KL散度里的p(x[i])换成固定的label向量,则可等价于交叉熵损失函数;

 

- 梯度

方向导数(任何方向都有)

沿着梯度方向,方向导数是最大的; (梯度是自变量空间的向量;对应到z=f(x,y)里,梯度就是xy平面上的向量)

 

-xgboost

PDF

损失 = 拟合损失 + 结构损失 (+ 常量)

拟合损失:L(label, y(t-1)+y(t))

泰勒展开,展开到二阶:约等于L(label, y(t-1)) + L'(label, y(t-1))y(t) + L''(label, y(t-1))y(t)^2 ; 第一项放到常数项里;

所有样本的L加和,加和顺序改一下,对t这个子树,最外面sum所有节点,对每个节点,sum落在其上所有样本的L'和L'',y(t)写成w

再加上结构损失sum(w^2)

最后是一个w的二次函数,求最小值即可,w取关于L'和L''的一个式子;

算每棵树的时候,对每个feature,先对值排序,然后从左到右统计sumL'和sumL''即可,边统计边更新最优Loss

对于回归问题,L(label,y)=(label-y)^2,  不需要泰勒展开即可求关于y的最小值;得到残差的概念

对于分类问题,L(label,y)=-label log(1/(1+e^(-y)) - (1-label) log(1/(1+e^y))    对y求导得到L'=y-label;  L''=y(1-y)

 

- 极大似然估计/ Maximum Likelihood / MLE

模型已定,参数未知”  (实际中,给定样本集,模型不一定是确定的,即模型是有概率的)

独立同分布假设:所有样本点都是独立的;由同一个分布产生;

p(θ|X) 经贝叶斯公式= p(X|θ)p(θ)/p(X)

假设p(θ)对所有θ都是一样的, max p(θ|X)即等价于max p(X|θ)

p(x1, x2, ...xn | θ) 独立同分布假设= p(x1|θ)p(x2|θ)...p(xn|θ)

投硬币问题:设正面概率为p,反面概率为(1-p),得到p^M*(1-p)^N,求最大值,解出p

θ如果是高斯分布:高斯分布生成x的概率公式写上,连乘,等价于取log,求最大值,解出mean和variance

套路:

 

  (1) 写出似然函数;(θ生成x的概率,连乘起来)

  (2) 对似然函数取对数,并整理;

  (3) 求导数 ;(极值,令导数等于0)

  (4) 解似然方程

注意:最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率这点与贝叶斯估计区别。这句话的意思是说最大似然估计的前提是已知模型,但实际问题中我们也许需要该模型出现的概率大小,比如上面的问题,统计全国人口身高时采用的是正态分布模型,但该做法并没有考虑正态分布模型自身的概率,也许可能服从其他分布模型,所以此处P(正态分布)<1,但在最大似然估计方法中我们认为P(正态分布)=1。(手势识别里,假设每个手势对应一个高斯分布,每个手势类别本身出现的概率p(θ),当时我们认为都一样)

总结:给定一组已知样本,求一个分布参数,使得这个分布生成这组样本的概率是最大的;

 

-PCA

样本不动;坐标轴改动了;

样本向量,乘以单位向量,得到该样本在该向量上的投影;

主成分:样本们投影值,方差最大的那个轴;

cosθ,即两个向量的夹角余弦值,就是cosine距离公式(内积/两个模);

cosine距离,自带归一化的,适合两个向量用不同度量体系得到的情况;

点乘:一个向量在另一个向量上的投影;

 

-SVM

支持向量,是那些α不为0的样本点,他们的加权和就是分隔超平面w!

b是找一个在边界超平面上的点(α大于0),y-wx即求得b

正常推法:点到超平面距离y(wx+b) / (||w||^2), w和b可缩放至所有y(wx+b)>=1, 则式子写为求min{ 1/2 ||w||^2 } s.t. y(wx+b)>=1 (n组x,y, 所以n个约束条件)

求解步骤:目标函数是带不等式约束的最优化问题,用拉格朗日乘子法写成等价的min(w,b) max(α)问题;满足KKT条件,所以可以写成对偶问题max(α) min(w,b), 对w和b分别求偏导=0, 解出w和b, 带入原方程,得到只含有α的式子(和一些约束条件,如∑α[i]y[i]=0, 0<=α[i]<=C);用SMO算法,求解带约束的α使得式子max; α代入w, w代入wx+b=y[i]求得b, 分类函数sign(wx+b)可以完全写成φ(x[i])φ(x[j])的核函数形式;

损失函数:min {1/2 ||w||^2 + C∑ε}    C越大,对ε越不能容忍,接近线性可分SVM; C越小,边界越宽,越容许越界(越两边的界不一定分错,越中间的界才会分错); 可以看成Hinge损失加上正则项1/2 ||w||^2

求解阿尔法,以及wx+b的方程,里面只有fan(x[i])点乘fan(x[j]),所以只需要计算核函数即可,不需要将样本映射到高维空间再点乘,省计算时间省存储空间。

高斯核函数,可视为将样本点映射到无穷维的空间上,在该空间找一个超平面使得最近点距离尽可能大Hinge损失尽可能小(分得更开)。决定该超平面的支撑向量们,如果是K个,则新样本的分类取决与和这K个支撑向量们的"软"K近邻(高斯函数决定1~0的权重),正例占优则分为正例,负例占优则分为负例。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值