换个角度看回归——极大似然估计

本文介绍了极大似然估计的概念,通过极大似然估计重新审视线性回归和逻辑回归。线性回归中,最小二乘法和极大似然估计殊途同归,都导致了正规方程的求解;而在逻辑回归中,模型基于伯努利分布,通过极大似然估计得到损失函数。文章帮助读者深入理解这两种回归模型的本质。

极大似然估计与回归

极大似然估计

先简单说下似然(likelihood)和概率(probability)的区别,两者都是对可能性的表示。概率是在给定了一定参数值后,表示了一件事物发生的可能性;而似然则反其道而行之,是在给定了一系列结果后,表示了某一组参数值的可能性。那么最大似然估计的思想,就是在给定了一组结果后哪一组参数的可能性最大;反过来说,就是使用这样一组参数,出现给定结果的可能性最大。即条件概率 P(X|Θ)=L(Θ|X)

根据机器学习的目的,我们就是在找寻一组参数,这组参数可以让机器取代人工进行分类、拟合等功能,从定义的角度来看,极大似然估计似乎正是我们所需要的。下面我们就用极大似然估计的方法来重新学习下线性回归和逻辑回归(LR)。

线性回归

最小二乘法

想必大家已经对线性回归足够的了解,再简单回顾一下,给定一组样本 X 和结果 Y ,希望得到一组参数 Θ 从而能够尽可能使得 YiXTiΘ 相近 。假设 Yi^=XTiΘ,那么对于样本 Xi 来说,其估计的误差就是 |YiYi^|。那么我们想要得到一组最好的参数 Θ,就代表我们要尽可能缩小所有样本的误差之和,这就是最小二乘法的本质。

根据上面的回顾,我们很容易得到常用的代价函数:

J(Θ)=12mi=0m(YiYi^)2

而我们接下来要做的就是最小化这个代价函数从而能够找到一组参数 Θ 使得总误差最小。

极大似然法

那么我们现在就从极大似然估计的角度来看一下线性回归的本质。现在我们假设 Yi=XTiΘ+ϵi=Yi^+ϵi。 这个式子中 ϵ 代表着误差。且 ϵiN(0,σ2)。 这个条件也就解释了为什么线性回归是 高斯模型 的。

现在我们来看一下我们要求的 P(Yi|

<think> 嗯,用户这次的问题很具体,直接询问SPSS能否实现全息极大似然估计(FIML)。结合之前的对话,用户显然在深入研究缺失值处理方法,而且已经理解了FIML的理论框架,现在需要落地到实际操作层面。 用户引用了一条关于AMOS和SPSS的站内资料[^1],提到数据非正态时的处理方案。这提示用户可能正在处理问卷数据,且关注分布假设问题——这一点很重要,因为FIML在SPSS中的实现恰恰对正态性敏感。 从技术角度看,SPSS确实支持FIML,但实现方式特殊: 1. 混合模型模块的ML选项实质就是FIML,这点需要明确告知用户 2. 要强调菜单路径(分析>混合模型>线性),因为SPSS用户多习惯图形界面 3. 必须警告正态假设:用户引用的资料[^1]提到ML依赖正态分布,这和当前问题直接相关 用户可能遇到的实际障碍是: - 找不到FIML功能的位置(嵌套在混合模型里不直观) - 忽略了协方差结构的设置(默认的方差成分可能不合适) - 对输出结果中的参数估计表解读困难 需要给出具体操作示例代码,但考虑到用户引用的是SPSS,优先展示菜单操作路径。代码示例保留R作为备选方案很必要——毕竟SPSS的FIML功能有限,而用户如果要做复杂建模(如SEM),迟早需要转向lavaan。 特别要注意纠正术语:“全息极大似然”的表述不准确,应该在回答开头明确更正为“全信息极大似然(FIML)”,但语气要温和(用户可能是笔误)。 最后保留的延伸问题很有价值: - 第4问关于WLS估计法,正好回应用户引用资料[^1]中提到的替代方案 - 第2问的缺失模式诊断是用户下一步必然面临的问题 </think> SPSS**可以执行全信息极大似然估计(FIML)**处理缺失值,但需通过特定模块实现,具体操作如下: --- ### 一、SPSS中FIML的实现路径 1. **适用范围** SPSS的FIML功能主要嵌入在**混合线性模型(Mixed Models)**模块中,适用于: - 连续变量(假设多元正态分布) - 随机缺失(MAR)数据 - 面板数据、重复测量等多层结构数据 2. **操作步骤** ```markdown 1. 菜单路径: `分析` → `混合模型` → `线性` 2. 指定变量: - 将因变量放入"因变量"框 - 固定/随机效应变量放入对应框 3. 启用FIML: → 点击"估计"标签 → 勾选`参数估计`中的`最大似然(ML)` → **取消勾选**`使用所有可用数据`(默认使用列表删除) 4. 协方差结构(关键步骤): → 点击"协方差"标签 → 选择合适结构(如`非结构化`或`方差成分`) 5. 点击"确定"运行 ``` > **📌 核心原理** SPSS通过最大化观测数据的似然函数$L(\theta) = \prod_{i=1}^n f(\mathbf{x}_i^{\text{obs}} | \theta)$估计参数,使用EM算法迭代计算,无需删除含缺失值的个案[^1]。 --- ### 二、关键注意事项 1. **分布假设限制** - FIML默认要求**多元正态分布**,若数据严重非正态: - 可尝试Box-Cox变(`转` → `准备建模数据` → `最佳正态缩放`) - 改用WLS估计(加权最小二乘,不要求正态性) - 分类变量需先转为连续变量(如虚拟变量) 2. **功能局限性** | 功能 | SPSS支持情况 | 替代方案 | |--------------------|-----------------------|------------------------| | 结构方程模型(SEM) | ❌ 不支持 | 使用Amos/Mplus/R-lavaan | | 分类变量直接处理 | ❌ 需手动编码 | 逻辑回归模块 | | 非结构化协方差矩阵 | ✅ 支持 | — | 3. **诊断输出解读** 结果报告中关注: - **协方差参数估计表**:检查随机效应显著性 - **迭代历史记录**:确保EM算法收敛(通常<30次迭代) - **-2对数似然值**:越小表示模型拟合越好 --- ### 三、与非SPSS方案的对比 若需更灵活的FIML实现(如SEM模型): ```r # R语言lavaan包示例(推荐) library(lavaan) model <- 'y ~ x1 + x2 + x3' fit <- sem(model, data = df, missing = "ml", # 启用FIML estimator = "MLR") # 稳健标准误 summary(fit) ``` > **✅ 优势**:支持潜变量、非正态校正(MLR)、更复杂的缺失机制建模。 --- ### 💎 总结建议 1. **适用场景**: - SPSS的FIML适合**分层线性模型**的缺失值处理(如教育/医学纵向数据) - 简单回归可直接用`回归`模块(自动部分删除) 2. **避坑指南**: - 正态性检验:`分析` → `描述统计` → `探索` → 勾选`正态性检验` - 样本量要求:**最少200+样本**,缺失率<30% - 缺失模式诊断:`分析` → `缺失值分析` → 观察模式分类 --- ### 相关问题 1. 如何在SPSS中使用加权最小二乘(WLS)处理非正态数据的缺失值? 2. SPSS混合模型中如何选择协方差结构(UN vs AR1)? 3. 全信息极大似然估计(FIML)与多重插补(MI)在SPSS中的结果差异如何解释? 4. 当数据违反多元正态假设时,SPSS有哪些替代估计方法?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值