启文
NLP语言处理特别费劲,利用工具也不容易呀,自己写算法,要考虑很多因素,用别人的框架就要研究这个框架怎么用,下面介绍一下用gensim训练自然语言模型,当然是有大量文本的情况下训练,中文中有英文,标点符号,很可能出现内存溢出,需要考虑很多因素。我们用gensim来处理。
gensim梗概
参考文档官网:https://radimrehurek.com/gensim/auto_examples/index.html

可以看到有很多模型可以用,我们的目的是了解这些模型在gensim中是怎么用的,有什么样的处理都需要了解。
gensim模块
顾明思意就是将词转换为向量。
通过gensim你会发现有这些专有模块15个其中有 'logger’和 ‘logging’,可以不考虑,日志文件类。
‘_matutils’,
‘corpora’,
‘downloader’,
‘interfaces’,
‘logger’,
‘logging’,
‘matutils’,
‘models’,
‘parsing’,
‘scripts’,
‘similarities’,
‘summarization’,
‘test’,
‘topic_coherence’,
‘utils’
去官网了解吧不一个一个的介绍,主要要了解corpora、models、test和utils四个。corpora这个主要是用于词频统计,就是01化的意思。gens

最低0.47元/天 解锁文章
9384

被折叠的 条评论
为什么被折叠?



