机器学习入门之《集体智慧编程》寻找特征值

原创于 2012-12-26 12:39:52 发布 · 839 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习入门专栏收录该内容

8 篇文章

订阅专栏

本文深入探讨了贝叶斯分类中如何通过非负矩阵分解（NMF）技术，从文本特征中提取关键信息。利用文章与词汇矩阵，构建特征矩阵与权重矩阵，以求解最优特征，实现文本的有效分类。

在贝叶斯分类中，我们使用的最小单位是一个词比如 football，lady。其实一些类别的文章他的主要特征应该是一个词组或者几个单词的组和。我们叫做一个feature

以文本分类来说：

现在我们手里边有的数据是：文章-word的矩阵 matrixA（article）

比如

word1 word2 word3

文章A 0 1 2

文章B 1 5 6

文章C 0 8 6

数字表示单词出现的频率

现在我们要找的是：两个矩阵一个是 weight矩阵，一个是feature矩阵

feature矩阵matrixF

word1 word2 word3

feature1 a1 b1 c1

feature2 a2 b2 c2

weight矩阵 matrixW

feature1 feature2

文章A a1 a2

文章B b1 b2

文章C c1 c2

weight 矩阵中的元素可以看作为每个feature的重要程度

feature 矩阵可以看做在这个feature中的一个word的重要程度

现在要做的事情就是

找到两个非负矩阵 matrixW,matrixF 使得

令 matrixA'= matrixW * matrixF

matrixA = matrixA'

当然完全相等的概率比较小

我们可以是使用一个cost函数它返回 [matrixA(i,j)-matrixA'(i,j)]**2的和

我们找到一个这个cost最小的 matrixW ，matrixF也就得到了我们需要的特征值了

这个方法叫做 no-negative matrix fraction（NMF）非负矩阵分解

寻找最小matrixW和matrixF的过程就是求最小值问题，可以使用

模拟降火，爬山，遗传算法，拉格朗日优化等方法了

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。