经过测试,nltk虽然有包装了sklearn的SklearnClassifier,但是还是很局限,我在测试随机森林分类器时就出现了运行错误,因此建议整个流程都使用nltk!
nltk的数据集中每条记录的特征是通过自定义的特征提取方法获得的。每条记录的特征是一个字典对象,每个字典对象元由特征名称和对应的值组成。
例如
def gender_features(word):
return {
'last_letter':word[-1]}
nltk的数据集是 元素为元组的列表,或者可迭代对象,每一元组的第一元素是特征字典可由gender_features生成,第二元素是一个类标签。
例如:总数据集可以是一个列表
names=([(name,"m") for name