统计学习方法总结

感知机:

适用问题:二类分类   模型特点:分离超平面   模型类型:判别模型  学习策略:极小化误分类点到超平面距离  学习的损失函数:误分类点到超平面的距离  学习算法:随机梯度下降

模型函数:f(x)=sign(\sum_{j=1}^{N}\alpha _{j}y_{j}x_{j} \cdot x + b)

 

k近邻法:
适用问题:多类分类  回归   模型特点:特征空间,样本点   模型类型:判别模型

 

朴素贝叶斯法:

适用问题:多类分类   模型特点:特征与类别的联合概率分布,条件独立假设   模型类型:生成模型   学习策略:极大似然估计,极大后验概率估计  学习的损失函数:对数似然函数   学习算法:概率计算公式,EM算法

算法:(1)计算先验概率及条件概率

P(Y=c_{k})= (\sum_{i=1}^{N}I(y_{i}=c_{k})/N)

P(X^{J}=a_{ji}\mid Y=c_{k})=(\sum_{i=1}^{N}I(x_{i}^{(j)}=a_{ji},y_{i}=c_{k}))/(\sum_{i=1}^{N}I(y_{i}=c_{k}))

(2)对于给定的实例x=(x^{(1)},x^{(2)},...,x^{(n)})^{T},计算

P(Y=c_{k})\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}\mid Y=c_{k})

(3)确定实例x的类

y=arg maxP(Y=c_{k})\prod_{j=1}^{n}P(X^{(j)}=x^{(j)} \mid Y=c_{k})

 

贝叶斯估计:P_{\lambda }(Y=c_{k})=(\sum_{i=1}^{N}I(y_{i}=c_{k})+\lambda ) / (N+k\lambda )

 

 

决策树:

适用问题:多类分类,回归   模型特点:分类树,回归树   模型类型:判别模型   学习策略:正则化的极大似然估计  学习的损失函数:对数损失函数   学习算法:特征选择,生成,剪枝

样本集合D对特征A的信息增益(ID3)

g(D,A)=H(D)-H(D \mid A)

H(D)=-\sum_{k=1}^{K}\frac{\mid C_{k}\mid}{\mid D\mid}log_{2}\frac{\mid C_{k} \mid}{\mid D \mid}

H(D \mid A)=\sum_{i=1}^{n}\frac{\mid D_{i} \mid}{\mid D \mid}H(D_{i})

样本集合D对特征A的信息增益比(C4.5)

g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)}

样本集合D的基尼指数(CART)

Gini(D)=1-\sum_{k=1}^{K}(\frac{\mid C_{k} \mid}{\mid D \mid})^{2}

特征A条件下集合D的基尼指数:

Gini(D,A)=\frac{\mid D_{1} \mid}{\mid D \mid}Gini(D_{1})+\frac{\mid D_{2} \mid}{ \mid D \mid}Gini(D_{2})

 

 

逻辑斯蒂与最大回归熵模型

适用问题:多类分类   模型特点:特征条件下类别的条件概率分布,对数线性模型   模型类型:判别模型   学习策略:极大似然模型,正则化的极大似然模型  学习的损失函数:逻辑斯蒂损失   学习算法:改进的迭代尺度算法,梯度下降,拟牛顿法

逻辑斯蒂回归模型是由以下条件概率分布表示的分类模型。逻辑斯蒂回归模型可以用于二类或者多类分类

P(Y=k \mid x)= \frac{exp(w_{k}\cdot x)}{1+\sum_{k=1}^{K-1}exp(w_{k}\cdot x)}

P(Y=K \mid x)=\frac{1}{1+\sum_{k=1}^{K-1}exp(w_{k}\cdot )}

逻辑斯蒂回归模型源自逻辑斯蒂分布,其分布函数F(x)是S形函数,逻辑斯蒂回归模型是由输入的线性函数表示的输出的对数几率模型

最大熵模型是由以下条件概率分布表示的分类模型,最大熵模型也可以用于二类分类或者多类分类

P_{w}(y \mid x) = \frac{1}{Z_{w}(x)}exp(\sum_{i=1}^{n}w_{i}f_{i}(x,y))

Z_{w}(x)=\sum_{y}exp(\sum_{i=1}^{n}w_{i}f_{i}(x,y))

最大熵模型可以由最大熵原理推导得出,最大熵原理是概率模型学习或估计的一个准则。最大熵原理认为在所有可能的概率模型分布中,熵最大的模型就是最好的模型。

最大熵原理应用到分类模型的学习中,有以下约束最优化问题:

min - H(P) = \sum_{x,y}\widetilde{P}(x)P(y \mid x)logP(y \mid x)

s.t. P(f_{i})-\widetilde{P}(f_{i})=0

\sum_{y}P(y \mid x)=1

 

支持向量机:

适用问题:二类分类   模型特点:分离超平面 核技巧   模型类型:判别模型   学习策略:极小化正则化合页损失   软间隔最大化   学习的损失函数:合页损失   学习算法:序列最小最优化算法(SMO)

线性支持向量机学习等价于最小化二阶范数正则化的合页函数

\sum_{i=1}^{N}[1-y_{i}(w\cdot x_{i}+b)]_{+}+\lambda \left \| w \right \|^{2}

在线性支持向量机的对偶问题中,用核函数K(x,z)替代内积,求解得到的就是非线性支持向量机

f(x)=sign(\sum_{i=1}^{N}a^{*}_{i}y_{i}K(x,x_{i})+b^{*})

 

提升方法:

适用问题:二类分类   模型特点:弱分类器的线性组合   模型类型:判别模型   学习策略:极小化假发模型的指数损失   学习的损失函数:指数损失   学习算法:前向分布加法算法

AdaBoost算法模型是弱分类器的线性组合:

f(x)=\sum_{m=1}^{M}a_{m}G_{m}(x)

每一步中极小化损失函数

(\beta _{m},\gamma _{m})=arg\underset{\beta ,\gamma}{ min}\sum_{i=1}^{N}L(y_{i},f_{m-1}(x_{i})+\beta b(x_{i};\gamma ))

EM算法:

适用问题:概率模型参数估计   模型特点:含隐变量概率模型   学习策略:极大似然估计 极大后验概率估计   学习的损失函数:对数似然损失  学习算法:迭代算法

E步:求期望,即求logP(Y,Z \mid \theta )关于P(Z \mid Y, \theta ^{(i)})的期望:

Q(\theta ,\theta ^{(i)})=\sum_{Z}logP(Y,Z\mid \theta )P(Z\mid Y,\theta^{(i)})

成为Q函数,这里\theta^{(i)}是参数的现估计值;M步,求极大,即极大化Q函数得到参数的新估计值

\theta ^{(i+1)}=arg\underset{\theta}{max}Q(\theta,theta^{(i)})

 

隐马尔可夫模型  :

适用问题:标注   模型特点:观测序列与状态序列的联合概率分布模型   模型类型:生成模型   学习策略:极大似然估计 极大后验概率估计   学习的损失函数:对数似然损失   学习算法:概率计算公式 EM算法

条件随机场:

适用问题:标注问题   模型特点:状态序列条件下观测序列的条件概率分布,对数线性模型   模型类型:判别模型   学习策略:极大似然估计,正则化的极大似然估计   学习的损失函数:对数似然损失   学习算法:改进的迭代尺度算法,梯度下降,拟牛顿法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值