全监督的方法
1.1 kernel method
先理解什么是 support vector machine(svm),物理意义:假设超平面()能够将样本
正确分类,具有最大间隔的(maimum margin)
的划分超平面。从而引出svm 的基本(1):
we can get the dual problem for equation(1) by using Lagrange multiplier.
the relative dual problem is a typical Quadratic progamming. To avoid the computation complexity, we can use SMO(sequential minimal optimization)[Platt,1998]
The algorithm of SMO, 1 fix all the parameters except for , the get the limt.
kernel function:
for non-linear classification, which can not be seperate by non-or operation. Hence we need to map original problem to more higher dimensional space to get the linear separate super space. To avoid calculate the , we use this kind of function;
disadvantage:it do not need to get the inter product. kernel function is semi-positive matric. Properties: 任何一个半正定核矩阵,总能找到一个与之对应的映射 . in other words, 任意一个核函数的隐式定义了一个“再生的核希伯尔特空间”的特征空间。
我们希望样本在特征空间中线性可分的,因此特征空间的选取对SVM 至关重要。
common kernel function:线性核,多项式核,高斯核,拉普拉斯核,sigmoid 核。
soft margin:允许某些样本不满足约束,引入损失函数:hinge损失,指数损失,对数logistic loss 损失。同时约束不等式中引入slack variables,(松弛变量),任是一个Quadratic progamming,then use Lagrange multiplier to get the dual problem which is satisfied KKT conditions。
SVM 模型的深度理解:
1 SVM 和对率回归模型,当svm 使用的损失函数用logistic loss 时候,两者的性能相当。区别,对率回归不仅给出了分类,也有标记的概率。SVM 没有标记的概率。
2 hinge loss 中有y = 0 的平坦区域,是个SVM的稀疏性,从而需要依赖更多样本。
3 替换损失函数,可以得到其他学习模型。
first term is structure risk(也称为正则化项regularization), second term is empirical risk to discribe the relativity of the model,
Common regularization:
L2 norm:w 的分量取值平均,非零分量的个数more dense,L0 and L1 norm 的w 分量更sparse
kernel method
基于表示定理(representer theorm): 对于一般的正则化项+ 损失函数,只需要正则化项是单调递减增的,该优化问题的最优解是都可以表示为kernel method 的线性解。
Kernelized linear discriminat analysis核线性判别分析的步骤
Itro: 线性判别分析
希望同类样例的投影尽可能近(类散度矩阵(between-class scatter matrix)越小,也就是协方差的值越小,散度矩阵(within-class scatter matrix)的值越大,也就是异类距投影距离越来越远。
1 假设通过映射,将非线性映射到线性特征空间F,然后再F 中执行线性判别。散度矩阵/类散度矩阵。
2 注意:这里的映射不能得出具体形式,但是可以通过核函数隐式表示,并且用隐式表示一般的最优解。然后通过LDA 中的方法来求解系数矩阵。这里体现了,表示定理在分线性问题中的用法。
2 条件随机场
2.1 基础概念
inference:根据已知变量推测未知变量的条件分布。 推断,主要是有联合分布或者是条件分布的到 条件概率分布P(Y| O)
generative model考虑的是联合分布P(Y, R, O)
discriminative model 考虑的条件分布P(Y, R | O)
为了让推断更简洁:我们引入了概率图模型(probabilistic graphic model)
分类:有向图模型或者贝叶斯网(若变量间存在显式的因果关系);比如HMM(hidden markov model),最简单的动态beyesian network(时序数据建模,NLP)
HMM结构; 1状态变量或者隐变量(通常是N个取值的离散空间),2观测变量(离散型和连续型)。
HMM特点:t时刻状态仅依赖于 t-1 时刻的状态y_{t-1}。即markov chain
HMM 联合分布概率:
重要的三组参数:状态转移矩阵A,观测概率B,初始状态PI(通过训练样本而不是通过人工指定参数)
无向图模型或者马尔可夫网(只存在相关性而没有显式的因果关系)
MRF(Markov Radom Field): 节点表示一个或者一组变量;边表示任意两变量之间依赖关系。
MRF 的势函数(potential function or factor):也就是定义在变量子集上的非负函数,主要用于定义概率分布。
MRF中团(clique):任一两个节点之间有连接为clique,若一个clique 中不包含另一个节点为极大团(maximal clique)
MRF的联合概率:多个变量之间的联合概率基于 团分级为多个因子(势函数)乘积。z 为规划化因子。最好基于极大团的概念来定义联合分布。
MRF 的条件独立性:如果节点集A 和 B 被节点集C (seperating set)分离,则成A和B 是变量子集条件独立。该特性被称为全局马尔科夫性(global markov property)
global markov property推论:局部马尔科夫性(节点集中节点间的条件独立性),成对马尔科夫性。两个非邻接变量的条件独立性。
因此求解过程是,先用函数带求解参数指数形式的势函数来来定义,联合概率分布,从而来进行推断。
条件随机场(Conditional random field)
上述HMM AND MRF 可以看出是生成式图模型,那么CRF 可以看做是判别式无向图模型
也可以看做是:给定观测值的马尔科夫随机场,或者是看所对率回归的扩展。
CRF 中有给定观测变量x 和对应的标记变量 y,CRF 的目的是为了构建条件概率模型P(y|x)。需要注意的事标记变量可以是结构变量,比如,词性标注中的线性序列结构,和语法分析中的树形结构。
CRF的特殊结构:链式条件随机场(chain-structured CRF), 其条件概率:通过选用指数势函数引入特征函数(feature function)
学习和推断:
推断的公式 是贝叶斯公式,其问题的关键在于:如何高校的计算边际分布:变量消去法,信念传播。
为了降低计算量的推断的方法:Sampling Markov chain Monte carlo MCMC采样,变分推断(《深度学习》第19章)(已知简单的分布来逼近需要推荐的复杂分布)
关于采样的方法可以参考深度学习中第17章集中采样
3 决策树(decision tree)
如何从属性集中的找到最优的划分属性。information entropy 是度量决策树纯度的常用指标。Ent(D)越小,纯度越高。
或者information gain 越大,纯度提升越大。
决策树过拟合:pruning 剪枝处理:分类为预剪枝和后剪枝(可以用到奥卡姆剃刀准则)。
奥卡姆剃刀(Occam's Razor)可以理解为如果有多种模型都能够同等程度地符合同一个问题的观测结果,那就应该选择其中使用假设最少的,也就是最简单的模型。尽管越复杂的模型通常能得到越精确的结果,但是在结果大致相同的情况下,模型就越简单越好。
4 近邻回归(k-最近邻)
k-nearest neighbord: 【步骤1】基于某种测量样本找出k个最近的训练样本。【步骤2】基于这k个样本的信息预测。
【步骤2】如何基于这k个样本做信息预测:投票法,平均法,权重法(根据距离)[参考结合学习]
【判断标准】出错率的定义:给定测试样本x和最近邻样本z的标记不同的概率。
【优点】泛化错误率不超过贝叶斯最优分类器错误率的两倍
【步骤1】假设:任意测试样本x附近任意小的\delta距离,总能找到一个训练样本(dense sample),造成多属性时候,“密采样”条件所需要的样本数目天文数字。
【步骤1】高维空间中:1内积计算不容易,2数据样本稀疏。措施:dimension reduction。原理:高维空间中,存在一个低维嵌入(embedding)。
【经典降维方法】多维缩放“multiple dimension scalling”
主成分分析“principal component analysis”
核化线性降维
流行学习“manifold learning”借鉴了拓补流形学习概念降维:等度量映射;局部线性嵌入
度量学习“distance metric learning”