【数据挖掘 机器学习 】总结4:听徐老师讲课第四集

博客指出机器学习本质是找数据规律,还提及要懂哲学。重点阐述了概率论,包括概率表示方法、边缘概率、联合概率、条件概率等规则,介绍了贝叶斯定理,解释其公式含义,还列举了伯努利分布等多种概率分布,以及朴素贝叶斯分类器、零概率问题和贝叶斯信念网络等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先,要认为科学是有规律的;机器学习的本质是找数据内在的规律。找出一条曲线。

其次,懂一点哲学;唯心主义,唯物主义。

接着,进入正题。

概率论(probability theory)

1.概率的表示方法:(1) 测量的频率(frequency)  ---->唯物

                                (2)贝叶斯                                唯心----->唯物

2.(1)边缘概率  P(X=x_{i})

   (2)联合概率  P(X=x_{i}, Y=y_{i})

   (3)条件概率  P(Y=y_{i} | X=x_{i})

3.加法规则(Sum Rule):

边缘概率 = 联合概率的加和

P(X=x_{i}) = \frac{c_{i}}{N}=\frac{1}{N}\sum_{j=1}^{l}n_{ij}=\sum_{j=1}^{l}P(X=x_{i}, Y=y_{i})

4.乘法规则(Product Rule):

联合概率 = 条件概率 * 边缘概率

P(X=x_{i}, Y=y_{i})=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_{i}}\cdot \frac{c_{i}}{N} =P(Y=y_{i}|X=x_{i})P(X=x_{i})

5.贝叶斯定理(Bayes Theorem)  ----》belief

P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}(5)=\frac{P(X|Y)P(Y)}{\sum_{Y}^{Y}P(Y)P(X|Y)}

 其中,P(X)={\sum_{Y}^{Y}P(Y)P(X|Y)}, 即X的边缘概率 = Y的边缘概率与条件概率乘积的累加。(根据上述的加法法则和乘法法则推导)

6.解释公式(5):

等式(5)的左边P(Y|X)中的分母X表示数据样本;分子Y表示参数,它是一个随机变量。总之,P(Y|X)表示后验(唯物主义)。

等式(5)的右边的分母P(X)表示样本。分子中的P(X|Y),是样本与参数的关系,不表示概率,对于Y来说是Y的一个函数。总之,表示似然率。分子中的P(Y)表示先验概率(唯心主义)。

即,posterior\propto likelihood * prior,后验 = 似然 * 先验;事实建立在信心之上。

数据量小的时候,受先验概率影响大;数据量大了,受先验概率影响小。

7.各种概率分布/密度函数:

  • 伯努利分布(两点分布,0-1分布):只有两种可能结果的单次随机试验。如,抛一次硬币是正面向上吗?
  • 二项分布:n重伯努利试验;伯努利分布是二项分布在n=1时的特例。如,重复扔n次硬币,k次为正面的概率即为一个二项分布概率。
  • 多项分布:做n次试验,每次试验的结果可以有m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就 是多项式分布。如,扔骰子。
  • 高斯分布(正态分布):与平均值、方差有关。

8.Towards Naive(天真、幼稚) Bayesin Classifier:

m + m*2^{n}

为减少计算 ,找与之相关的。

9.   0-Probability Problem

如,可以都+1解决。Laplacian

10.Bayesian Belief Networks:

把相关的联系到一起计算,不相关的不计算。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值