- 导入相关的包
https://github.com/lda-project/lda 这里有lda包的文档,我也是参考的这个文档来的!
import numpy as np
import lda
X = lda.datasets.load_reuters()
X.shape
(395, 4258)
- 这里说明X是395行4258列的数据,说明有395个训练样本
vocab = lda.datasets.load_reuters_vocab()
len(vocab)# 这里是所有的词汇
4258
- 这里说明一个有4258个不重复的词语
- 选取前十个训练数据看一看
title = lda.datasets.load_reuters_titles()
title[:10]
('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',
'1 GERMANY: Historic Dresden c