首先,要认为科学是有规律的;机器学习的本质是找数据内在的规律。找出一条曲线。
其次,懂一点哲学;唯心主义,唯物主义。
接着,进入正题。
概率论(probability theory)
1.概率的表示方法:(1) 测量的频率(frequency) ---->唯物
(2)贝叶斯 唯心----->唯物
2.(1)边缘概率
(2)联合概率
(3)条件概率
3.加法规则(Sum Rule):
边缘概率 = 联合概率的加和
4.乘法规则(Product Rule):
联合概率 = 条件概率 * 边缘概率
5.贝叶斯定理(Bayes Theorem) ----》belief
其中,, 即X的边缘概率 = Y的边缘概率与条件概率乘积的累加。(根据上述的加法法则和乘法法则推导)
6.解释公式(5):
等式(5)的左边中的分母X表示数据样本;分子Y表示参数,它是一个随机变量。总之,
表示后验(唯物主义)。
等式(5)的右边的分母P(X)表示样本。分子中的P(X|Y),是样本与参数的关系,不表示概率,对于Y来说是Y的一个函数。总之,表示似然率。分子中的P(Y)表示先验概率(唯心主义)。
即,,后验 = 似然 * 先验;事实建立在信心之上。
数据量小的时候,受先验概率影响大;数据量大了,受先验概率影响小。
7.各种概率分布/密度函数:
- 伯努利分布(两点分布,0-1分布):只有两种可能结果的单次随机试验。如,抛一次硬币是正面向上吗?
- 二项分布:n重伯努利试验;伯努利分布是二项分布在n=1时的特例。如,重复扔n次硬币,k次为正面的概率即为一个二项分布概率。
- 多项分布:做n次试验,每次试验的结果可以有m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就 是多项式分布。如,扔骰子。
- 高斯分布(正态分布):与平均值、方差有关。
8.Towards Naive(天真、幼稚) Bayesin Classifier:
为减少计算 ,找与之相关的。
9. 0-Probability Problem
如,可以都+1解决。Laplacian
10.Bayesian Belief Networks:
把相关的联系到一起计算,不相关的不计算。