Tagging Problems and Hidden Markov Models

本文探讨了序列标注问题,包括词性标注和命名实体识别,并介绍了HMM模型在标注问题中的应用,如三元组HMMs的参数估计和Viterbi算法解码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一,标注问题

1,基本定义

通常将源序列 x1,x2,..,xn x 1 , x 2 , . . , x n 映射为标记序列 y1,y2,...,yn y 1 , y 2 , . . . , y n 的问题,称为序列标注问题或者标注问题。

序列对建模的任务就是从训练语料中学习一个函数可以将源序列映射为标记序列的函数。

2,两个经典的标注问题

(1)POS tagging(词性标注)

1

词性标注的难点在于:

  • 词性的歧义。
  • 罕见词的存在性,例如那些没在训练语料中出现的词语。

一般解决方法:

  • 考虑每个词语词性的统计偏好。
  • 利用每个词的上下文信息,上下文信息对一个词的词性有很大的影响。

(2)Named-Entity recognition(命名实体识别)

2

3,标注问题的学习方法

一般我们会把标注问题看做一个监督学习问题,如下:

1

(1)判别式模型(条件模型)

  • 首先从训练样本中学习一个条件分布 p(y|x) p ( y | x )
  • 给一个测试样本x,则预测的标记序列为 f(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值