57、非负矩阵分解算法在潜在语义分析中的应用

stem5

于 2025-08-23 14:38:29 发布

阅读量84

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习方法精讲文章标签：非负矩阵分解 NMF 潜在语义分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/stem5/article/details/151461014

机器学习方法精讲专栏收录该内容

76 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

非负矩阵分解算法在潜在语义分析中的应用

潜在语义分析模型

在文本处理中，我们常使用非负矩阵分解（NMF）来进行潜在语义分析（LSA）。给定一个 $m×n$ 的非负词 - 文本矩阵 $X \geq 0$，假设文本集中共有 $k$ 个主题。我们对 $X$ 进行 NMF，也就是找到非负的 $m×k$ 矩阵 $W \geq 0$ 和 $k×n$ 矩阵 $H \geq 0$，使得 $X \approx WH$。

这里，$W = \begin{bmatrix} w_1 & w_2 & \cdots & w_k \end{bmatrix}$ 是主题向量空间，$w_1, w_2, \cdots, w_k$ 表示文本集中的 $k$ 个主题；$H = \begin{bmatrix} h_1 & h_2 & \cdots & h_n \end{bmatrix}$ 是主题向量空间中的文本，$h_1, h_2, \cdots, h_n$ 表示文本集中的 $n$ 个文本。这就是基于 NMF 的 LSA 模型。

NMF 有着非常直观的解释。主题向量和文本向量都是非负的，对应着“伪概率分布”，向量的线性组合意味着局部叠加构成整体。

非负矩阵分解的形式化

NMF 可以形式化为一个优化问题。首先，我们需要定义损失函数或成本函数。

平方损失 ：假设两个非负矩阵 $A = [a_{ij}] {m×n}$ 和 $B = [b {ij}] {m×n}$，平方损失函数定义为：
$| A - B |^2 = \sum

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。