gensim训练词向量PathLineSentences基础用法

启文

NLP语言处理特别费劲,利用工具也不容易呀,自己写算法,要考虑很多因素,用别人的框架就要研究这个框架怎么用,下面介绍一下用gensim训练自然语言模型,当然是有大量文本的情况下训练,中文中有英文,标点符号,很可能出现内存溢出,需要考虑很多因素。我们用gensim来处理。

gensim梗概

参考文档官网:https://radimrehurek.com/gensim/auto_examples/index.html
在这里插入图片描述
可以看到有很多模型可以用,我们的目的是了解这些模型在gensim中是怎么用的,有什么样的处理都需要了解。

gensim模块

顾明思意就是将词转换为向量。
通过gensim你会发现有这些专有模块15个其中有 'logger’和 ‘logging’,可以不考虑,日志文件类。
‘_matutils’,
‘corpora’,
‘downloader’,
‘interfaces’,
‘logger’,
‘logging’,
‘matutils’,
‘models’,
‘parsing’,
‘scripts’,
‘similarities’,
‘summarization’,
‘test’,
‘topic_coherence’,
‘utils’

去官网了解吧不一个一个的介绍,主要要了解corpora、models、test和utils四个。corpora这个主要是用于词频统计,就是01化的意思。gens

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值