模式识别与机器学习笔记(二)机器学习的基础理论

本文介绍了机器学习中的基础理论,重点讲解了极大似然估计(MLE)的概念,包括似然函数、参数估计过程,并通过误差平方和解释其在模型精度中的作用。同时,概述了概率论基础,如贝叶斯定理、概率密度函数和高斯分布,以及信息熵的基本概念,为后续的机器学习模型学习打下基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习是一门对数学有很高要求的学科,在正式开始学习之前,我们需要掌握一定的数学理论,主要包括概率论、决策论、信息论。

一、极大似然估计(Maximam Likelihood Estimation,MLE )

在了解极大似然估计之前,我们首先要明确什么是似然函数(likelihood function),对于 p ( x ∣ θ ) p(x|θ) p(xθ)
θ θ θ是已知, x x x是变量, p ( x ∣ θ ) p(x|θ) p(xθ)表示概率函数,描述的是 x x x出现的概率是多少;
x x x是已知, θ θ θ是变量, p ( x ∣ θ ) p(x|θ) p(xθ)表示似然函数,描述的是对于不同的模型( θ θ θ决定)出现样本点 x x x的概率是多少。
似然可以理解为概率,只是表征的含义不同,通常利用求极大似然来确定模型参数,极大似然的描述如下:
极大似然估计是一种已知样本,估计参数的方法。通过给定样本集 D D D估计假定模型的参数,极大似然估计可以帮助我们从参数空间中选择参数,使该参数下的模型产生 D D D的概率最大

1.求解极大似然函数
重要前提:训练样本的分布能够代表样本的真实分布,每个样本集中的样本都是独立同分布的随机变量,并且有充分的训练样本。
已知样本集D={ x 1 , x 2 , x 3 , . . . , x m x_1,x_2,x_3,...,x_m x1,x2,x3,...,xm},{ y 1 , y 2 , y 3 , . . . , y m y_1,y_2,y_3,...,y_m y1,y2,y3,...,ym},则似然函数表示为
L ( θ ) = p ( y ∣ x ; θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) L(θ)=p(y|x;θ)=\displaystyle\prod_{i=1}^{m} p(y^{(i)}|x^{(i)};θ) L(θ)=p(yx;θ)=i=1mp(y(i)x(i);θ)
确定 θ θ θ使模型出现样本集D的概率(表示为条件概率)最高即为我们所求,即
θ = a r g m a x L ( θ ) = a r g m a x ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) θ=argmaxL(θ)=argmax\displaystyle\prod_{i=1}^{m} p(y^{(i)}|x^{(i)};θ) θ=argmaxL(θ)=argmaxi=1mp(y(i)x(i);θ)
为便于计算与分析,定义了对数似然函数 H ( θ ) = l o g L ( θ ) H(θ)=logL(θ) H(θ)=logL(θ) θ = a r g m a x ∑ i = 1 m l o g p ( y ( i ) ∣ x ( i ) ; θ ) θ=argmax\displaystyle\sum_{i=1}^{m}logp(y^{(i)}|x^{(i)};θ) θ=argmaxi=1mlogp(y(i)x(i);θ),现在我们确定了目标函数 H ( θ ) H(θ) H(θ),需要求得一组 θ θ θ使 H ( θ ) H(θ) H(θ)最大,可以通过求导数的方法解决这个问题,以高斯分布的参数估计(Gaussian Parameter Estimation)为例,求解过程如下,
设样本服从正态分布 N ( μ , σ 2 ) N(μ,σ^2) N(μ,σ2),首先写出似然函数 L ( μ , σ 2 ) = p ( x ; μ , σ 2 ) = ∏ n = 1 N N ( x n ; μ , σ 2 ) L(μ,σ^2)=p(x;μ,σ^2)=\displaystyle\prod_{n=1}^{N}N(x_n;μ,σ^2) L(μ,σ2)=p(x;μ,σ2)=n=1NN(xn;μ,σ2)

L ( μ , σ 2 ) L(μ,σ^2) L(μ,σ2)的对数为:

求导,得方程组:

解得:

       

2.误差平方和的解释
在模式识别与机器学习(一)中我们讲到采用误差平方和原理来求解多项式系数,为何使用误差平方和作为衡量模型精度的标准呢?用极大似然估计可以解释。
我们观察下图,这是上一节课中讲到的多项式曲线拟合模型,红色曲线代表拟合结果,蓝色点代表样本点。

我们把每一个 x x x看作独立的随机变量,对应的样本点 t t t服从均值为 y ( x 0 , w ) y(x_0,w) y(x0,w)的正态分布(一般来讲,误差服从均值为零的正态分布,平移 y ( x 0 , w ) y(x_0,w) y(x0,w)个单位),即 p ( t ∣ x 0 , w , β ) = N ( t ∣ y ( x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值