在前面几课里的学习算法的思路都是给定数据集以后,确定基于此数据集的最佳假设H函数,通过学习算法确定最佳假设H的各个参数,然后通过最佳假设函数H得出新的数据集的结果。在这一课里介绍了一种新的思路,它的核心思想是直接计算各种假设的最高概率,然后拟合各个假设的最高概率参数,并利用拟合得到的假设概率,计算出新的数据集的概率,选取概率最高的假设直接得出分类类别。
整个生成学习算法的精髓在于条件概率的使用,在二元分类里,也可以称为分别算法。在给定的数据集里确定p(y) 和p(x|y),然后依据贝叶斯定理,得到
其中x|y=1)p(y=1)+p(x|y=0)p(y=0)。为得到每种假设的最高概率,所以可知
1、高斯分别算法(Gaussian discriminant analysis,GDA)
多元正太分布的函数这里就不详细展开了,以后会另开一个关于机器学习中的常用数学的博客专题。高斯分别算法面对的是连续变量x。在高斯分别分析模型
y~Bernoulli(φ )
x|y=0 ~N(μ0,Σ )
x|y=1∼ N(μ1,Σ)
所以它们的概率分布函数是:

最低0.47元/天 解锁文章
1072

被折叠的 条评论
为什么被折叠?



