如何才能建立起似然函数

函数形式表达:

                 P(y=0|w,x) = 1 – g(z)

                 P(y=1|w,x) =  g(z)

                 P(正确) =(g(w,xi))^{y^{i}} * (1-g(w,xi))^{1-y^{i}}        y^{i}为某一条样本的预测值,取值范围为0或者1.

        到这里,我们得到一个回归函数,它不再像y=wT * x一样受离群值影响,他的输出结果是样本预测为正例的概率(0到1之间的小数).我们接下来解决第二个问题:选定一个阈值.

似然函数是如下式子的连乘 (下面的2分类是个个例)

 似然 =连乘 (g(w,xi))^{y^{i}} * (1-g(w,xi))^{1-y^{i}} 

到底多少个连乘呢  要看有多少组样本,毕竟一组样本就确定了一个分类 ,n个样本就是N次分类

式子 (g(w,xi))^{y^{i}} * (1-g(w,xi))^{1-y^{i}} 代表了一次分类,因为该次分类,不确定y为0 还是 1,也可以说y既可以是0也可以是1

要把N个样本每次的分类都代进上式子才能建立起似然函数

 

 

 

 

https://blog.youkuaiyun.com/weixin_39445556/article/details/83930186

<think>嗯,我现在需要理解线性回归的极大似然估计。首先,我记得线性回归是用来建立自变量和因变量之间关系的模型,通常用最小二乘法来估计参数。但为什么这里提到极大似然估计呢?是不是说极大似然估计和最小二乘法有关系? 让我先回忆一下线性回归的基本形式。假设有数据点$(x_i, y_i)$,其中$x_i$是自变量,$y_i$是因变量。线性回归模型可以表示为: $$y_i = \beta_0 + \beta_1 x_i + \epsilon_i$$ 这里$\beta_0$和$\beta_1$是待估计的参数,$\epsilon_i$是误差项。通常假设误差项服从正态分布,均值为0,方差为$\sigma^2$,也就是$\epsilon_i \sim N(0, \sigma^2)$。这可能和极大似然估计有关,因为极大似然需要假设误差的分布。 接下来,极大似然估计的原理是找到参数使得观测数据出现的概率最大。那如何应用到线性回归中呢?首先,我需要写出似然函数。因为每个$y_i$都是独立同分布的,所以它们的联合概率密度函数就是各个概率密度的乘积。 假设误差项$\epsilon_i$独立且服从正态分布,那么$y_i$的条件分布也是正态的,即$y_i | x_i \sim N(\beta_0 + \beta_1 x_i, \sigma^2)$。因此,$y_i$的概率密度函数为: $$ f(y_i | x_i; \beta_0, \beta_1, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - (\beta_0 + \beta_1 x_i))^2}{2\sigma^2}\right) $$ 那么似然函数是所有样本点概率密度的乘积: $$ L(\beta_0, \beta_1, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - (\beta_0 + \beta_1 x_i))^2}{2\sigma^2}\right) $$ 为了方便计算,通常取对数似然函数: $$ \ln L = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2 $$ 接下来,为了最大化对数似然函数,需要对参数$\beta_0$、$\beta_1$和$\sigma^2$求导并令导数为零。注意到对于$\beta_0$和$\beta_1$,最大化对数似然相当于最小化残差平方和$\sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2$,这和最小二乘法的目标函数是一样的。因此,极大似然估计给出的$\beta$参数估计和最小二乘法的结果相同。 那对于$\sigma^2$的估计呢?求导之后应该能得到它的估计量,可能是一个有偏估计?例如,可能分母是n而不是n-2?不过需要具体推导一下。 另外,可能需要考虑多元线性回归的情况,此时参数$\beta$是一个向量,推导过程类似,但需要用到矩阵的导数。不过用户的问题可能先关注简单的一元情况,然后再推广。 有没有可能哪里出错了?比如,是否必须假设误差服从正态分布才能用极大似然?是的,因为如果误差不是正态的,极大似然估计可能和最小二乘的结果不同。所以在线性回归中使用极大似然估计的前提是误差项的正态性假设。 总结一下步骤应该是:建立模型,假设误差分布,写出似然函数,取对数,求导,解得参数估计。然后指出在正态假设下,极大似然估计与最小二乘结果一致,并得到$\sigma^2$的估计量。</think>线性回归的极大似然估计(MLE)是一种基于概率模型的参数估计方法,其核心是假设误差服从正态分布,并通过最大化观测数据出现的概率来求解参数。以下是详细步骤和解释: --- ### **1. 线性回归模型与假设** 假设有$n$个观测数据$(x_i, y_i)$,线性模型为: $$y_i = \beta_0 + \beta_1 x_i + \epsilon_i,$$ 其中: - $\beta_0, \beta_1$为待估参数, - $\epsilon_i$为误差项,满足$\epsilon_i \sim N(0, \sigma^2)$(独立同分布的正态误差)。 --- ### **2. 构建似然函数** 由于$y_i$的条件分布为$y_i | x_i \sim N(\beta_0 + \beta_1 x_i, \sigma^2)$,其概率密度函数为: $$ f(y_i | x_i; \beta_0, \beta_1, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - (\beta_0 + \beta_1 x_i))^2}{2\sigma^2}\right). $$ 所有观测值的联合似然函数为: $$ L(\beta_0, \beta_1, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - (\beta_0 + \beta_1 x_i))^2}{2\sigma^2}\right). $$ --- ### **3. 对数似然函数** 取自然对数简化计算: $$ \ln L = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2. $$ --- ### **4. 最大化对数似然** 为最大化$\ln L$,需分别对$\beta_0$、$\beta_1$和$\sigma^2$求偏导并令其为0。 #### **(1) 对$\beta_0$和$\beta_1$求导** 最大化$\ln L$等价于最小化**残差平方和**: $$ \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2. $$ 这与最小二乘法(OLS)的目标函数一致,因此: - $\hat{\beta}_0$和$\hat{\beta}_1$的MLE估计与OLS结果相同。 #### **(2) 对方差$\sigma^2$求导** 解得方差估计量为: $$ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2, $$ 其中$\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$。此估计量是**有偏的**,通常修正为无偏估计: $$ s^2 = \frac{1}{n-2} \sum_{i=1}^n (y_i - \hat{y}_i)^2. $$ --- ### **5. 关键结论** - **参数估计**:在正态误差假设下,MLE给出的$\beta_0$和$\beta_1$估计与最小二乘法相同。 - **方差估计**:MLE的$\sigma^2$估计是有偏的,但可通过自由度修正为无偏。 --- ### **6. 推广到多元线性回归** 对于多元模型$y = X\beta + \epsilon$($X$为设计矩阵,$\beta$为参数向量),MLE推导类似: - 对数似然函数为: $$ \ln L = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} (y - X\beta)^\top (y - X\beta). $$ - 参数估计结果为: $$ \hat{\beta} = (X^\top X)^{-1} X^\top y. $$ --- ### **总结** 线性回归的极大似然估计在正态误差假设下,提供了与最小二乘法一致的参数估计,并扩展了方差估计的理论基础。这一方法将统计模型与概率分布结合,为后续的假设检验和置信区间构建奠定了基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值