LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型
机器学习高级算法中LDA算法有线性判别分析(Linear Discriminant Analysis,LDA)和隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型两个。本文介绍的是隐含狄利克雷分布模型,此模型主要用于文本主题分类。
本文使用sklearn中的LatentDirichletAllocation实现主题分类。
# -*- coding:utf-8 -*-
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import numpy as np
import jieba
def cut_doc_words():
# 数据文档列表
doc_list = [
'河南大学创立于1912年,始名河南留学欧美预备学校,首任校长为林伯襄先生,校园选建于河南贡院旧址之上。后历经中州大学、国立开封中山大学 ( 又称国立第五中山大学 )、省立河南大学等阶段 ,1942年升格为国立河南大学 。',
'1952年院系调整,部分院系或独立建校或并入兄弟高校,校本部更名为河南师范学院。后又经开封师范学院、河南师范大学等阶段,1984年恢复河南大学校名。',
'2008年10月,学校进入省部共建高校行列。2017年9月,学校入选首批国家“双一流”建设高校。2022年2月,学校再次入选国家“双一流”建设高校。',