本文参考李航统计学习方法第17章 潜在语义分析~
文本信息处理的一个核心问题是对文本内容进行数字表示,并进行文本之间的语义相似度的计算。
传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量(内积或标准化内积)表示文本之间的语义相似度。
潜在语义分析试图发现潜在的话题,以话题向量表示文本的语义内容,以话题向量空间的度量(内积或标准化内积)表示文本之间的语义相似度。
单词向量空间
描述:
给定一个文本,用一个向量表示该文本的 ‘语义’ ,向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或权值(权值通常用 tfidf 表示)。基本假设是文本中所有单词的出现情况表示了文本的语义内容。一个文本集中的每个文本都可表示为一个向量,向量空间的度量如内积或标准化内积表示文本之间的 ‘语义相似度’ 。
下面给出数学定义,给定一个含有 n 个文本的集合,以及在所有文本出现的 m 个单词的集合
。将单词在文本中出现的数据用一个 单词-文本矩阵表示,记做
,第一列表示 文本
对应的单词向量,第二列表示文本
对应的单词向量:
是一个
的矩阵。
表示单词