机器学习入门 之 《集体智慧编程》 寻找特征值

本文深入探讨了贝叶斯分类中如何通过非负矩阵分解(NMF)技术,从文本特征中提取关键信息。利用文章与词汇矩阵,构建特征矩阵与权重矩阵,以求解最优特征,实现文本的有效分类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在贝叶斯分类中,我们使用的最小单位是一个词 比如 football,lady。 其实一些类别的文章他的主要特征应该是一个词组或者几个单词的组和。我们叫做一个feature

以文本分类来说:
现在我们手里边有的数据是:文章-word的矩阵 matrixA(article)

比如
          word1  word2    word3 
文章A      0        1       2
文章B      1        5       6
文章C      0        8       6

数字表示单词出现的频率

现在我们要找的是:两个矩阵 一个是 weight矩阵,一个是feature矩阵
feature矩阵matrixF 
              word1      word2    word3
feature1        a1         b1       c1   
feature2        a2         b2      c2


weight矩阵 matrixW
           feature1 feature2
文章A       a1         a2        
文章B       b1         b2         
文章C       c1         c2 
      

weight 矩阵中的元素 可以看作为每个feature的重要程度
feature 矩阵可以看做 在这个feature中的一个word的重要程度

现在要做的事情就是
找到两个非负矩阵 matrixW,matrixF 使得
令 matrixA'=  matrixW * matrixF
matrixA = matrixA'

当然完全相等的概率比较小
我们可以是使用一个cost函数  它返回 [matrixA(i,j)-matrixA'(i,j)]**2的和
我们找到一个 这个cost最小的 matrixW ,matrixF也就得到了我们需要的 特征值了
这个方法叫做 no-negative matrix fraction(NMF)非负矩阵分解


寻找最小matrixW和matrixF的过程就是求最小值问题,可以使用
模拟降火,爬山,遗传算法,拉格朗日优化等方法了




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值