
自然语言处理
文章平均质量分 50
Mr_Hagrid
这个作者很懒,什么都没留下…
展开
-
sklearn、nltk、gensim语料输入对比之sklearn
sklearn 语料处理:sklearn的sklearn.datasets.load_files方法支持从目录读取所有分类好的文本。不过目录必须按照一个文件夹一个标签名的规则放好。比如本文使用的数据集共有2个标签,一个为“net”,一个为“pos”,每个目录下面有6个文本文件。目录如下所示: neg 1.txt 2.txt ……pos 1.txt原创 2015-08-24 13:21:50 · 3432 阅读 · 0 评论 -
sklearn、nltk、gensim语料输入对比之nltk
nltk的数据集中每条记录的特征是通过自定义的特征提取方法获得的。每条记录的特征是一个字典对象,每个字典对象元由特征名称和对应的值组成。例如def gender_features(word): return {'last_letter':word[-1]}nltk的数据集是 元素为元组的列表,或者可迭代对象,每一元组的第一元素是特征字典可由gender_features生成,第二元素是一个类原创 2015-08-24 19:20:08 · 3389 阅读 · 0 评论