之前做的主要工作是学习一些关于主体模型及其衍生模型的学习,并且其具体的应用。
向量空间模型是文本的代数模型,用向量来表示文档。可用于信息过滤、信息检索、文档比较等。
LSA(潜在语义分析)旨在寻找出词与词之间的某种语义关联,达到简化文本,得出词与概念间的关系。可应用于信息检索等。
PLSA 概率潜在语义模型使用统计的方法为文档建立起“文档--潜在语义--词”之间的概率分布关系。
主题模型是文本挖掘中的一种概率模型,是在传统的向量空间模型和语言模型上发展起来。
之前学习的LDA主题模型是一种机器学习技术,可以用来识别大规模文本集中隐藏的信息。将每一篇文档视为一个词频向量,每一篇文档是一些主题的概率分布,而每一个主题又是在一些词上的概率分布。LDA模型训练出来的就是“文档--主题”和“主题--词”的分布。通过训练,就可以找到文档所涵盖的主题。
后来又了解了一些LDA的衍生模型及其应用。如Author-topic 和 DTM(动态主题模型)。在Author-topic模型中,在LDA的基础上加入了作者这个角色,得出的是“作者-主题”和“主题--词”的分布。该模型可用来判断作者与文章之间的关系。
DTM动态主题模型是文档主题的演化。如新闻事件,研究热点等。在动态主题模型中,文档集按时间顺序被分割成个切片,每个切片内的子文档集都用主题模型建模。其中当前时间片内的“主题-词”与“文档--主题”分布受上一个时间片内的影响。从而分析得出主题的动态变化。