词法分析与词性标注

本文详细探讨了词法分析与词性标注,包括英语形态分析、汉语自动分词及其问题、分词与词性标注的评价方法、各种分词算法如最大匹配法和基于HMM的方法,以及未登录词识别和命名实体识别。同时,介绍了词性标注的不同方法,并展望了未来的研究方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

词法分析与词性标注

一,英语的形态分析

  • 单词识别

  • 形态分析

    形态分析的一般方法:

    1. 查词典
    2. 单词还原
    3. 进入未登录词处理模块

二,汉语自动分词概要

1,汉语自动分词中的主要问题
  • 规范问题
  • 歧义切分字段处理
    1. 交集型歧义
    2. 组合型歧义
  • 未登录词的识别
2,汉语自动分词的基本原则
  • 语义上无法由组合成分直接相加而得到的字串应 该合并为一个分词单位。(合并原则)
  • 语类无法由组合成分直接得到的字串应该合并为 一个分词单位。 (合并原则)
3,汉语自动分词的辅助原则
  • 有明显分隔符标记的应该切分之 (切分原则)
  • 附着性语(词)素和前后词合并为一个分词单位 (合并原则)
  • 使用频率高或共现率高的字串尽量合并为一个分词 单位 (合并原则)
  • 双音节加单音节的偏正式名词尽量合并为一个分词 单位 (合并原则)
  • 双音节结构的偏正式动词应尽量合并为一个分词单 位 (合并原则)
  • 内部结构复杂、合并起来过于冗长的词尽量切分 (切分原则)

三,分词与词性标注结果评价方法

1,两种测试
  • 封闭测试/开放测试
  • 专项测试/总体测试
2,评价指标
  • P
  • R
  • F1

四,自动分词基本算法

  • 有字典切分/无字典切分
  • 基于规则的方法/基于统计的方法
1,最大匹配法
  • 正向
  • 逆向
  • 双向
2,最少分词法(最短路径法)
3,基于语言模型的分词方法

W ∗ = a r g m a x W p ( W ∣ S ) = a r g m a x W p ( W ) p ( S ∣ W ) W^*=argmax_W p(W|S)=argmax_Wp(W)p(S|W) W=argmaxWp(WS)=argmaxWp(W)p(SW)

4,基于HMM的分词方法

观察序列为单词串 S w S_w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值