GENSIM 使用笔记1 --- 语料和向量空间

GENSIM 使用笔记1 — 语料和向量空间
GENSIM 使用笔记2 — 主题模型和相似性查询

1 本篇说明

本篇博客来源于GENSIM官方向导文档的第一章,主要供自己后续的翻阅,并通过分享带给诸位网友一个小小的参照。

从字符串到向量

在这一小节当中,将会讲述如何通过gensim,将一段文本以向量的形式表示。
首先我们看一下我们的基本文档形式:

documents = [
    '拍照反光一直是摄影爱好者较为苦恼的问题',
    '尤其是手机这种快速拍照设备的成像效果总是难以令人满意',
    '特别是抓拍的珍贵照片',
    '遇上反光照片基本作废',
    '而索尼最近研发的集成偏振片传感器',
    '似乎可以有效的解决拍照反光的问题'
]

和原始教程不一样,这里我不完全参考他的文档,并且换用了中文作为示例,这一点更加贴合我们实际的使用。

在这里,我们简单的表示了下,将每篇文档(这里只是一句话,请根据实际情况替换)表示为了一个字符串,最后用一个list表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值