词性标注与词义消歧:基于隐马尔可夫模型的实现与优化
1. 生成发射概率
在词性标注和词义消歧任务中,生成发射概率是关键步骤之一。可以通过构建发射概率的二元矩阵来生成发射概率,与之前的操作类似,但不同的是,除了列出每行有效的词性标签(PoS tags),还需列出歧义类,如名词/动词、名词/形容词/动词、动词/副词等。因为隐马尔可夫模型(HMM)的核心就是处理歧义,我们无法直接观察到名词或动词等隐藏状态,而是以一定的发射概率观察到歧义类,这些概率可以通过构建过程学习得到。
发射概率计数矩阵的构建方式如下:
- 行:由歧义类和标注语料库中的有效词性标签组成,这些行是我们观察到的发射变量,而非隐藏状态。
- 列:标注语料库中的有效词性标签,对应着如果能直接观察到的无歧义词性类别。
下面是一个过渡计数矩阵的示例:
| First tag | verb | noun | det | prn | pr | adj |
| — | — | — | — | — | — | — |
| verb | 0 | 1 | 1 | 0 | 2 | 1 |
| noun | 1 | 0 | 0 | 0 | 1 | 1 |
| det | 3 | 0 | 4 | 0 | 0 | 0 |
| prn | 0 | 0 | 0 | 0 | 0 | 0 |
| pr | 0 | 0 | 0 | 0 | 0 | 0 |
| adj | 0 | 0 | 0 | 0 | 0 | 0 |
| sent | 0 | 0 | 0 | 0 | 0 | 0 |
将过渡计数转换为过渡概率和初始概率的操作步骤如
超级会员免费看
订阅专栏 解锁全文
6363

被折叠的 条评论
为什么被折叠?



