最大似然估计学习笔记
贝叶斯定理及最大(极大)似然估计( m a x i m u m − l i k e l i h o o d maximum-likelihood maximum−likelihood)是机器学习的数理基础。
① 条件概率
定义1 若A、B是独立事件,即AB事件相互独立,则有:
P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)
定义2 若A、B为事件且事件A为正概率,在事件A发生的条件下事件B发生的条件概率为: P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
公式1 (乘法公式)设 A 1 、 A 2 . . . . A n A_1、A_2....A_n A1、A2....An为事件且均为正概率,则有
P ( A 1 A 2 . . . A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) . . . P ( A n ∣ A 1 A 2 . . . A n ) P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_n) P(A1A2...An)=P(A1)P(A2∣A1)P(A3∣A1A2)...P(An∣A1A2...An)
公式2 (全概率公式)若 B 1 、 B 2 . . . . B n B_1、B_2....B_n B1、B2....Bn均为正概率事件且两两不相容,即 B i B j = ∅ ( i = ̸ j ; i , j = 1 , 2 , . . . n ) B_iB_j=\emptyset(i =\not j;i,j=1,2,...n) BiBj=∅(i≠j;i,j=1,2,...n),又有 ⋃ i = 1 n B i = Ω \bigcup_{i=1}^{n} B_i=\Omega ⋃i=1nBi=Ω,其中 Ω \Omega Ω为样本空间,则称 B n B_n Bn为该样本空间中的划分。对于样本空间内的随机事件 A A A则有
P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(A)=\sum_{i=1}^{n}P(B_i)P(A|B_i) P(A)=