词法分析与词性标注
一,英语的形态分析
-
单词识别
-
形态分析
形态分析的一般方法:
- 查词典
- 单词还原
- 进入未登录词处理模块
二,汉语自动分词概要
1,汉语自动分词中的主要问题
- 规范问题
- 歧义切分字段处理
- 交集型歧义
- 组合型歧义
- 未登录词的识别
2,汉语自动分词的基本原则
- 语义上无法由组合成分直接相加而得到的字串应 该合并为一个分词单位。(合并原则)
- 语类无法由组合成分直接得到的字串应该合并为 一个分词单位。 (合并原则)
3,汉语自动分词的辅助原则
- 有明显分隔符标记的应该切分之 (切分原则)
- 附着性语(词)素和前后词合并为一个分词单位 (合并原则)
- 使用频率高或共现率高的字串尽量合并为一个分词 单位 (合并原则)
- 双音节加单音节的偏正式名词尽量合并为一个分词 单位 (合并原则)
- 双音节结构的偏正式动词应尽量合并为一个分词单 位 (合并原则)
- 内部结构复杂、合并起来过于冗长的词尽量切分 (切分原则)
三,分词与词性标注结果评价方法
1,两种测试
- 封闭测试/开放测试
- 专项测试/总体测试
2,评价指标
- P
- R
- F1
四,自动分词基本算法
- 有字典切分/无字典切分
- 基于规则的方法/基于统计的方法
1,最大匹配法
- 正向
- 逆向
- 双向
2,最少分词法(最短路径法)
3,基于语言模型的分词方法
W ∗ = a r g m a x W p ( W ∣ S ) = a r g m a x W p ( W ) p ( S ∣ W ) W^*=argmax_W p(W|S)=argmax_Wp(W)p(S|W) W∗=argmaxWp(W∣S)=argmaxWp(W)p(S∣W)
4,基于HMM的分词方法
观察序列为单词串 S w S_w