MALLET中的序列标注

本文介绍了序列标注技术的基本假设,对比了分类与序列标注的区别,并详细探讨了如何避免指数级复杂度的增长。文中还介绍了隐马尔可夫模型(HMM)与条件随机场(CRF)在序列标注任务中的应用,包括数据导入格式、训练过程及评估方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.Assumption:(1)Data occurs in sequences.(2)Categorical labels for each position.(3)Labels are correlated

2.classify vs. sequence tagging:n‐way vs. n^T‐way.

3.avoid exponential blowup:(1)Markov property (2)Dynamic programming

4.HHM:(1)fully generative,P(Labels|Data)=p(Data,Labels)/P(Data).(2)simple (independent) output space:NSF_funded.FeatureSequence(int[])
5.CRF:(1)conditonal,P(Labels|Data).(2)arbitrarily complicated outputs:NSF_funded,CAPATILIZED,ENDS_WITH_ED.FeatureVectorSequence
(FeatureVector[])
6.IMporting Data:SimpleTagger format: one word per line, with instances delimited by a blank line.
7.Sliding
 window 
features:a@-1&love@1
8.Training 
a
 transducer:
 
9.Evaluating a transducer
 
10.Applying 
a 
transducer
 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值