逻辑斯蒂回归与最大熵模型——分类
-
逻辑斯蒂回归
- 逻辑斯蒂分布
- F(x)是分布函数和f(x)是密度函数
- 二项逻辑斯蒂回归模型——由条件概率分布p(Y|X)表示的逻辑斯谛分布
-
随机变量X取值为实数,随机变量Y取值为1//0
-
- 多项逻辑斯蒂回归
- 这是假设离散型随机变量Y
- 逻辑斯蒂分布
-
最大熵模型
- 最大熵原理
支持向量机——二类分类 间隔最大化
- 线性可分——线性可分支持向量机
- 线性近似可分——线性支持向量机
- 线性不可分——核技巧及软间隔最大化
降维是将高维的数据转化为低维的子空间。
主成分分析法
- 对正交属性空间,如何用一个超平面(直线的高位推广)对所有样本进行表达
- (1)样本点到这个超平面的距离足够近(2)样本点在超平面的投影尽可能分散
提升方法——分类问题(通过改变训练样本的权重,将多个分类器进行线性组合)
- (1)提高被前一轮弱分类器错误分类样本的权重可以改变训练数据的权值和概率分布 (2)加权多数表决,提高分类误差小的分类器权值可以将弱分类器组合成为一个强分类器。
- AdaBoost模型是弱分类器的线性组合
- 该算法实际上是前向分布算法的一个实现。在这个模型中,模型是加法模型,损失函数是指数损失,算法是前向分布算法。
- 算法例子:

EM算法——含有隐变量的概率模型
- 含有隐变量的概率模型的数据表示为
。这里Y是观测变量的数据,Z是隐变量的数据,
是模型参数。EM算法通过迭代求解观测数据的对数似然函数
的极大化,实现极大似然估计。
- 每次迭代分为两步:
- E:求期望,
,
是参数的现估计值;
- M:求极大。极大化Q函数得到参数的新估计值:
- E:求期望,
- EM算法在每次迭代后均提高观测数据的似然函数值,即
-
隐马尔可夫——用于标注问题的统计学习模型(隐性状态的转移和表现)
- 隐性状态:隐马尔科夫链随机生成一个状态序列,是外界观察不到的状态
- 隐马尔可夫模型有初始概率分布、状态转移概率分布以及观测概率分布确定的
-
A是状态转移概率矩阵:
-
B是观测概率矩阵:
-
Π是初始状态概率向量:
-
-
-
概率计算:给定模型入=(A,B, nt)和观测序列
,计算在模型入下观测序列О出现的概率P(O|入)。前向-后向算法通过递推地计算前向-后向概率可以高效地进行隐马尔可夫模型的概率计算。
-
直接计算法(求各个状态序列与观测序列的联合概率,然后对所有可能的状态序列求和):
-
前向算法:
-
前向概率:给定隐马尔可夫模型
,定义到时刻t部分观测序列为
且状态为
的概率为前向概率
-
-
实例:
-
-
后向算法
-
后向概率:给定隐马尔可夫模型
,定义到时刻t状态为
的条件下,从t+1到T的部分观测序列为
的概率为后向概率
-
-
-
利用前向概率和后向概率的定义可以将观测序列概率P(
)统一写成
-
-
学习问题:已知观测序列
,估计模型入=(A,B,T)参数,使得在该模型下观测序列概率P(O|入)最大。即用极大似然估计的方法估计参数。Baum-Welch算法,也就是EM算法可以高效地对隐马尔可夫模型进行训练。它是一种无监督学习算法。
-
监督学习方法:
-
EM算法:
-
-
预测问题:已知模型入=(A,B,T)和观测序列
,求对给定观测序列条件概率P(I|O)最大的状态序列
。维特比算法应用动态规划高效地求解最优路径,即概率最大的状态序列。
-
近似算法:
-
维特比算法
-
条件随机场——标注问题的应用
- 在给定随机变量X条件下,随机变量Y的马尔可夫随机场(主要介绍的是定义在线性链上的特殊的条件随机场)
- 在条件概率模型P(Y|X)中,Y是输出变量,表示标记序列,X是输入变量,表示需要标注的观测序列。也把标记序列称为状态序列(参见隐马尔可夫模型)。学习时,利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型P(Y|X);预测时,对于给定的输入序列x时,求出条件概率P(y|x)最大的输出序列y。
- 概率计算问题(和HMM相似)
-
前向——后向算法:因为每个位置可能有 m 个取值,对每个指标i=0,1,…,n+1,定义前向向量
:
递推公式:
又可表示为
表示在位置i的标记是
并且到位置i的前部分标记序列的非规范化概率,
可取的值有m个,所以
是m维列向量。同样,对每个指标i=0,1,…,n+1,定义后向向量
:
又可表示为
表示在位置i的标记为
,并且从i+1到n的后部分标记序列的非规范化概率。
由前向-后向向量定义不难得到:
- 概率计算:
-
- 学习问题
- 预测问题(与HMM的预测算法类似,采用维特比算法)
- 实例: