结构化感知器(Structured Perceptron, SP)是由Collins [1]在EMNLP'02上提出来的,用于解决序列标注的问题。中文分词工具THULAC、LTP所采用的分词模型便是基于此。
1. 结构化感知器
模型
CRF全局化地以最大熵准则建模概率\(P(Y|X)\);其中,\(X\)为输入序列\(x_1^n\),\(Y\)为标注序列\(y_1^n\)。不同于CRF建模概率函数,SP则是以最大熵准则建模score函数:
\[S(Y,X) = \sum_s \alpha_s \Phi_s(Y,X) \]
其中,\(\Phi_s(Y,X)\)为本地特征函数\(\phi_s(h_i,y_i)\)的全局化表示:
\[\Phi_s(Y,X) = \sum_i \phi_s(h_i,y_i) \]
那么,SP解决序列标注问题,可视作为:给定\(X\)序列,求解score函数最大值对应的\(Y\)序列:
\[\mathop{\a
本文介绍了结构化感知器SP,一种用于序列标注问题的模型,详细阐述了其模型构建、解码过程在中文分词中的应用,并提及THULAC和LTP等工具的分词模型基于SP。此外,提到了开源实现以及特征模板的定义,如张开旭的minitools/cws项目,并引用了相关文献。
订阅专栏 解锁全文
1204

被折叠的 条评论
为什么被折叠?



