[机器学习] 使用极大似然估计与贝叶斯估计拟合线性基函数

文章介绍了概率模型的概念,包括二项分布、正态分布等,并重点讲述了极大似然估计(MLE)和贝叶斯估计。通过数学公式展示了如何计算模型参数,并以线性基函数模型为例,解释了如何拟合非线性数据。最后,通过实验部分,使用Python生成非线性数据并应用MLE和贝叶斯估计进行模型训练,可视化结果展示了不同数据集和参数K对模型的影响。

一、概率模型

概率模型可以写作:
P(⋅∣θ) P(·|\theta) P(θ)
指模型的分布类型已知(二项分布、正态/高斯分布,Bate分布等),但是模型的参数未知。基于独立同分布的样本数据D对模型参数进行估计。常用的方法有极大似然估计(MLE)、极大后验估计(MAP)、贝叶斯估计。

二、极大似然估计Maximum Likelihood Estimation

MLE的实质为计算在参数下D出现的概率,需要计算D中每个样本出现概率的乘积,即似然函数。表达式如下:
D={ xi}i=1nLikelihood(θ)=P(D∣θ)=Πi=1nP(xi∣θ)似然函数lnL(θ)=Σi=1nlnP(xi∣θ)对数似然函数 D = \{x_i\}_{i=1}^n \\ Likelihood(\theta) = P(D|\theta) = \Pi_{i = 1}^nP(x_i|\theta) \quad 似然函数 \\ lnL(\theta) = \Sigma_{i=1}^nln P(x_i|\theta)\quad 对数似然函数 D={ xi}i=1nLikelihood(θ)=P(Dθ)=Πi=1nP(xiθ)似然函数lnL(θ)=Σi=1nlnP(xiθ)对数似然函数
对似然函数取对数可以将概率乘法变为加法,将参数估计问题变为函数优化问题,从而可以得到能够使观察数据D出现概率最大的概率模型P参数来。

三、贝叶斯估计Bayesian

贝叶斯估计表达式如下。其中p(A|B)为B条件下A的概率,w为参数,D为独立同分布数据样本:
p(w∣D)=p(D∣w)p(w)p(D) p(w|D) = \frac{p(D|w)p(w)}{p(D)} p(wD)=p(D)p(Dw)p(w)
贝叶斯模型生成参数模型的概率分布(后验概率),其实质为基于样本数据调整先验概率,得到更合理的后验概率。

四、线性基函数模型

用于拟合非线性数据,普通模型的计算为:
y=xt⋅w y = x^t·w y=xtw
线性基函数即对输入x进行线性变换后,再与参数进行计算。一般是为了对输入特征的维度进行变换,参数维度K决定了模型的描述能力:K=0,模型为一条水平线;K=1,模型为一条直线…然而K的值不是越高越好,过大的K会使得模型容易过拟合。

y=ϕt(x)⋅w+ϵ(x∈RD,w∈RK,ϵ∼N(0,σ2))ϕ(x)=∣ϕ0(x)ϕ1(x)⋮ϕK−1(x)∣=∣1xx2⋮xK−1∣∈RK⟹y=w01+w1x+⋯+wk−1xk−1+ϵ y = \phi^t(x)·w+ \epsilon \quad(x\in R^D,w \in R^K,\epsilon \sim N(0,\sigma^2)) \\\phi(x) = \begin{vmatrix} \phi_0(x)\\ \phi_1(x)\\ \vdots\\ \phi_{K-1}(x)\\ \end{vmatrix} = \begin{vmatrix} 1\\ x\\ x^2\\ \vdots\\ x^{K-1}\\ \end{vmatrix}\in R^K \\\Longrightarrow \quad y = w_01 + w_1x + \cdots + w_{k-1}x^{k-1} +\epsilon y=ϕt(x)w+ϵ(xRD,wRK,ϵN(0,σ2))ϕ(x)= ϕ0(x)ϕ1(x)ϕK1(x) = 1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值