主题建模
使用潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)、潜在语义索引(Latent Semantic Indexing, LSI)或分层狄利克雷过程(Hierarchical Dirichlet Process, HDP)进行主题建模。
输入
- 语料库(Corpus):文档集合。
输出
- 语料库(Corpus):附带主题权重的语料库。
- 主题(Topics):所选主题及其词权重。
- 所有主题(All Topics):每个主题的词权重。
主题建模通过分析文档中的词簇及其频率,发现语料库中的抽象主题。一个文档通常包含多个主题,比例各异,因此该组件还会报告每个文档的主题权重。
订阅专栏 解锁全文
129

被折叠的 条评论
为什么被折叠?



