GENSIM 使用笔记1 — 语料和向量空间
GENSIM 使用笔记2 — 主题模型和相似性查询
1 本篇说明
本篇博客来源于GENSIM官方向导文档的第一章,主要供自己后续的翻阅,并通过分享带给诸位网友一个小小的参照。
从字符串到向量
在这一小节当中,将会讲述如何通过gensim,将一段文本以向量的形式表示。
首先我们看一下我们的基本文档形式:
documents = [
'拍照反光一直是摄影爱好者较为苦恼的问题',
'尤其是手机这种快速拍照设备的成像效果总是难以令人满意',
'特别是抓拍的珍贵照片',
'遇上反光照片基本作废',
'而索尼最近研发的集成偏振片传感器',
'似乎可以有效的解决拍照反光的问题'
]
和原始教程不一样,这里我不完全参考他的文档,并且换用了中文作为示例,这一点更加贴合我们实际的使用。
在这里,我们简单的表示了下,将每篇文档(这里只是一句话,请根据实际情况替换)表示为了一个字符串,最后用一个list表