硬输出:有清晰的决策边界,取值要么是0,要么是1。
例如:svm是从几何角度来判别;PLA(感知机);LDA(线性判别分析)
软输出:引入概率,类似于P(y=1|x)>P(y=0|x)就视为取值为1。
概率判别模型:对P(y|x)这个条件概率进行建模。
概率生成模型:对P(x,y)这个联合概率进行建模。
MEMM是最大生成模型(Maximum Entropy Model)和HMM的综合,但实际上也是判别模型,是对P(y|x)建模。与HMM的区别:观测值作为输入,而不是输出;HMM有观测独立性假设,而MEMM和之前的观测值有联系;有标注偏差问题。
CRF要解决MEMM的标注偏差问题,把MEMM从有向图变成无向图,是全局归一化。
什么叫一阶线性无关:给定3的条件下,4和2是无关的。
齐次一阶马尔可夫:当前隐状态只与前面紧邻的一个状态有关,而与前面不紧邻的无关。
观测独立性:当前观测值只与当前的隐状态有关,而与之前的观测值无关。给定yt的条件下,xt和xt-1是无关的。
但是以上两个假设和实际情况是违背的,只是为了计算上的简便,是一种折中的选择。为了打破观测独立性假设,于是提出MEMM。给定yt的条件下,xt和xt-1不是独立的。
在标注问题中,用判别模型比生成模型好,因为我们只需要求得条件概率,而不需要求联合概率就能达到标注的目的。
MEMM缺点:Label Bias Problem,是由于mass score的归一化造成的问题,标注时考虑观测值非常少。
这里举的例子就是说我1时刻走到结点1,2时刻只能走到结点2,这样的话就根本没有考虑输入值i,模型就仅仅根据之前学到的内容,而忽略当前的内容来标注。比如:小明爱中国,直接不看“中国”这两个字就对“中国”进行了标注。
如何解决归一化带来的问题:把有向的MEMM变为无向的链---->线性链随机场