所有corpora.xxxcorpus中的对象均继承接口
一个语料库对象(corpus)是一个可迭代的对象,每次迭代得到一篇文档(document)
一个document对象又是一个2元组的(fieldId,fueldValue)序列
不同的corpus有不同的格式和相应的处理方法,但都有继承于CorpusABC的
1 classmethod load(fname, mmap=None)
2 save(*args, **kwargs)
3 static save_corpus(fname, corpus, id2word=None, metadata=False)
方法
理解corpora.textcorpus
由Demo入手学习
在Python安装文件下查找site-packages\gensim\test
找到test_miislita.py 文件
打开后发现一个有趣的网站: http://www.miislita.com/
corpora.TextCorpus是一个抽象的语料库类,复写其get_texts方法即可构造一个能序列化为各种corpus对象的输入对象。
get_texts()
Iterate over the collection, yielding one document at a time. A document is a sequence of word

Gensim的Corpus对象是可迭代的,每次迭代返回一篇文档,文档表现为(fieldId, fieldValue)序列。CorpusABC是其基础接口,提供了加载、保存等方法。TextCorpus是一个抽象类,通过覆写get_texts方法可以构建自定义输入对象。get_texts需返回单词序列,用于Dictionary.doc2bow转换。在gensim的test_miislita.py文件中,可以通过修改main函数生成MmCorpus。"
101930485,8845744,CDH集群时间同步配置指南,"['大数据', '网络', '数据库管理']
最低0.47元/天 解锁文章
725

被折叠的 条评论
为什么被折叠?



