词性标注技术全解析
1. 创建常见词标签模型
在词性标注中,为常见词创建标签模型是一项重要的工作。我们可以使用 nltk.probability.FreqDist 来统计树库语料库中单词的频率,再使用 ConditionalFreqDist 类来统计每个单词的标签频率。以下是创建模型的函数:
from nltk.probability import FreqDist, ConditionalFreqDist
def word_tag_model(words, tagged_words, limit=200):
fd = FreqDist(words)
cfd = ConditionalFreqDist(tagged_words)
most_freq = (word for word, count in fd.most_common(limit))
return dict((word, cfd[word].max()) for word in most_freq)
使用示例:
from tag_util import word_tag_model
from nltk.corpus import treebank
model = word_tag_model(treebank.words(), treebank.tagged_words())
tagger = UnigramTagger(model=model)
tagger.eva
超级会员免费看
订阅专栏 解锁全文
105

被折叠的 条评论
为什么被折叠?



