9、词性标注与支持向量机:自然语言处理的关键技术

词性标注与支持向量机:自然语言处理的关键技术

1. 词性标注基础与Markov模型

在自然语言处理中,词性标注是一项重要任务。例如,对于句子 “Most important of all, the less developed countries must be persuaded to take the necessary steps to allocate and commit their own resources.” ,我们需要为每个单词标注其词性。这里的 “Most” 是限定词(ql),“important” 是形容词(jj)等。

在编写Markov模型时,为了衡量从一个状态转移到另一个状态的概率,我们需要考虑当前单词和前一个单词。由于句子开头的单词没有前一个单词,我们引入特殊标记 “START” 来表示序列的开始。这样就能计算从 “START” 到限定词等词性的概率。

2. 词性标注器的编码与测试设计

为了实现词性标注器,我们采用两个类:
- CorpusParser :负责解析Brown语料库。
- POSTagger :根据语料库训练数据为新数据进行词性标注。

以下是相关代码示例:

import unittest

class CorpusParserTest(unittest.TestCase):
    def setUp():
        self.stream = "\tSeveral/ap defendants/nns ./.\n"
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值