最大似然函数(Maximum Likelihood Function)通常是乘积形式的原因在于它是基于独立同分布(independent and identically distributed, i.i.d.)的假设。在统计学中,当我们有一个数据集,并且假设数据集中的每个观测值都是从同一个概率分布中独立抽取的,那么这些观测值可以被视为是独立的随机变量。
对于参数模型,我们通常有一个概率密度函数(probability density function, PDF)或概率质量函数(probability mass function, PMF),它描述了一个观测值在给定参数下出现的概率。如果我们有一个由 n 个独立观测值 x_1, x_2, …, x_n 组成的数据集,并且每个观测值都是独立同分布的,那么整个数据集的概率(即联合概率密度)就是每个观测值概率的乘积。
L(θ)=f(x1;θ)⋅f(x2;θ)⋅…⋅f(xn;θ)
L(\theta) = f(x_1; \theta) \cdot f(x_2; \theta) \cdot \ldots \cdot f(x_n; \theta)
L(θ)=f(x1;θ)⋅f(x2;θ)⋅…⋅f(xn;θ)
这里,( L(\theta) ) 是似然函数,它是参数 ( \theta ) 的函数,表示在参数 ( \theta ) 下观测到数据集的概率。在最大似然估计中,我们寻找使得 ( L(\theta) ) 最大化的参数 ( \theta ),即:
θ^=argmaxθL(θ)
\hat{\theta} = \arg\max_\theta L(\theta)
θ^=argθmaxL(θ)
由于对数函数是单调递增的,我们通常取似然函数的对数来简化计算,因为乘积变成了求和,这样在数值上更稳定,也更容易处理。这就是为什么在实践中我们经常看到对数似然函数而不是原始的乘积形式的似然函数。
logL(θ)=logf(x1;θ)+logf(x2;θ)+…+logf(xn;θ)
\log L(\theta) = \log f(x_1; \theta) + \log f(x_2; \theta) + \ldots + \log f(x_n; \theta)
logL(θ)=logf(x1;θ)+logf(x2;θ)+…+logf(xn;θ)
最大化 ( \log L(\theta) ) 等价于最大化 ( L(\theta) )。这个过程就是最大似然估计的核心。
9万+

被折叠的 条评论
为什么被折叠?



