回归分析:逻辑回归诊断与泊松回归的应用
1. 逻辑回归诊断
1.1 护士手套使用情况研究
为了提高儿科护士使用手套的频率,在一家市中心儿科医院的急诊科进行了一项研究。研究人员在护士不知情的情况下,观察他们在血管手术过程中使用手套的情况。观察时间点包括培训期之前以及培训期之后的 1 个月、2 个月和 5 个月。
数据特征
数据具有纵向性质,即随着时间推移进行观察。每个护士在最多四个不同时间段内被观察,且观察结果(使用或不使用手套)为二元值。
| 经验年限 | 观察期 1(观察次数,戴手套次数) | 观察期 2(观察次数,戴手套次数) | 观察期 3(观察次数,戴手套次数) | 观察期 4(观察次数,戴手套次数) |
|---|---|---|---|---|
| 15 | (2, 1) | (7, 6) | (1, 1) | (2, 2) |
| 1 | (6, 5) | (11, 10) | (9, 9) | (3, 3) |
| … | … | … | … | … |
分析步骤
- 创建二元指标变量 :将第一个观察期设为 0,所有培训后观察期设为 1。使用该指标进行逻辑回归,以查看培训前后手套使用是否存在(边际)差异。
- 经验与手套使用关系 :分析手套使用的(边际)比率是否随经验年限增加或减少,并进行简单解释。
- 交互作用分析 :查看培训前后指标与观察期之间的交互作用,以确定培训后是否存在趋势,以及该趋势是否与护士经验无关。
- 异常值和有影响的观察值 :使用逻辑回归诊断方法识别异常值或有影响的观察值。
- 经验指标变量 :创建一个表示经验是否超过 5 年的指标变量,分析观察到的手术次数与该经验指标之间的关系,并解释结果。
- 个体行为变化 :将每个护士培训前的手套使用频率分为高于或低于 50%,培训后也进行同样分类,制作 2×2 表格,查看经验超过和低于 5 年的护士在这两个频率表上是否存在差异。
- 缺失值分析 :数据中存在大量缺失值,分析缺失观察值的频率是否与经验年限有关,以及缺失值在培训前后对于经验多或少的护士是否更常见,并尝试解释原因。还可以使用“最后值结转”方法填充缺失值,查看是否会改变其他问题的结论。
1.2 体育统计:匹兹堡钢人队冲刺比赛
研究给出了匹兹堡钢人队 21 年的历史数据,包括三位不同教练的执教情况,以及每年的胜负记录、冲刺尝试排名和获得码数排名。
数据特点
每年的数据仅代表名义上的同一支球队,因为球员职业生涯相对较短,教练每年面对的球员不同,球队数量也有所变化。
| 年份 | 获胜场次 | 失败场次 | 冲刺尝试排名 | 获得码数排名 | 教练 |
|---|---|---|---|---|---|
| 1988 | 5 | 11 | 13 | 6 | Chuck Noll |
| 1989 | 9 | 7 | 11 | 18 | Chuck Noll |
| … | … | … | … | … | … |
分析步骤
- 逻辑回归分析 :使用逻辑回归分析冲刺比赛对球队胜负记录的影响,包括冲刺和获得码数与胜负记录之间的关联。
- 教练差异分析 :比较三位教练在冲刺方面的差异,包括他们对冲刺的重视程度和成功率,以及冲刺次数的依赖程度是否随年份变化。
- 交互作用和成功率分析 :查看尝试码数和冲刺次数之间是否存在交互作用,以及某些年份的冲刺是否更成功。
- 异常值和有影响的年份 :寻找有影响的观察值和异常值,解释 2003 赛季的异常情况,以及为什么教练 Mike Tomlin 执教的年份和最早的年份具有影响力。
2. 泊松回归
2.1 泊松分布基础
泊松分布是当二项模型的 n 参数较大且 p 参数较小时的近似。它是公共卫生领域最重要的离散分布之一,适用于许多个体面临某一事件但该事件对任何一个个体发生概率都很小的情况,如鲨鱼袭击、彩票中奖、雷击、癌症发病率、工业伤害、手术并发症和双胞胎出生等。
泊松分布与二项分布的关系
泊松分布是大 N 和小 p 时二项分布的近似,但难以确定具体何时该使用泊松分布而非二项分布。如果需要精确值,应使用二项分布;但计算大 N 的阶乘可能会很困难,此时泊松分布是一个较好的选择。
泊松分布的特点
- 均值和方差相等 :泊松分布的均值和方差都用希腊字母 λ 表示,λ 可以是任何正数,不一定是整数。
- 结果为非负整数 :与二项分布一样,泊松分布的结果必须是非负整数,且范围是无限的。
- 概率公式 :在均值为 λ 的泊松分布中,j 个事件发生的概率为 $Pr[j 事件] = e^{-\lambda}\lambda^j/j!$。
不同 λ 值下的泊松分布
- 当 λ = 0.5 时,大部分概率集中在 0 和 1 事件上,较大值发生的可能性很小。
- 当 λ = 2 时,均值和方差都增加,可能值的范围扩大到 0 到 5 之间,大于 7 的值很少出现。
- 当 λ = 8 时,泊松分布开始近似于正态分布。
2.2 泊松回归模型
在泊松回归中,我们对事件数量的均值 λ 进行建模,目的是了解 λ 如何随数据中的其他协变量信息变化。
模型形式
不能简单地拟合 $\lambda = \alpha + \beta_1 Area + \beta_2 Population$ 形式的模型,因为对于某些面积和人口值,可能会得到负数,而 λ 必须大于 0。因此,使用对数链接函数,拟合模型形式为 $\log(\lambda) = \alpha + \beta_1x_1 + \beta_2x_2 + \cdots$,等价于 $\lambda = \exp(\alpha + \beta_1x_1 + \beta_2x_2 + \cdots)$,这样无论 xs 和估计参数 α、β 的值如何,λ 的估计值都不会为负。
2.3 新闻统计实例
彩票中奖情况
以纽黑文地区几个不同城镇的彩票中奖情况为例,有大量人购买彩票,但中奖概率非常小。我们可以使用泊松回归来建立数学模型,描述不同城镇的中奖人数,考虑城镇的面积、人口、财产税税率等特征。
伊拉克袭击情况
图展示了截至 2008 年 1 月伊拉克的总袭击次数,并将其分为联军(外国军队)、伊拉克安全部队(国内军队)和平民三类。泊松假设似乎成立,因为在给定月份中,任何人遭受袭击的概率很小,且袭击次数的均值和方差随均值增加而增加。
但袭击次数在相邻月份之间可能存在自相关性,因为它们取决于部队调动和战斗部队的其他协调活动。整体趋势呈波浪状,可能与季节变化有关,每年夏季和秋季袭击次数增加,1 月则减少。
2.4 SAS 中的泊松回归
以下是一个使用 SAS 拟合泊松回归模型到彩票数据的程序示例:
title1 'Lottery winners in towns near New Haven';
data lottery;
input name $ 1-14 winners pop area mill books;
label
winners = '# of major lottery winners'
pop = 'population in thousands'
area = 'area in sq miles'
mill = 'mill rate for property taxes'
books = 'number of books per student';
datalines;
Ansonia 6 17.9 6.2 28.9 16.4
Branford 11 28.0 27.9 22.6 18.0
Cheshire 6 26.2 33.0 27.1 21.0
Clinton 2 12.8 17.2 27.9 20.5
...
Trumbull 14 33.0 23.5 24.1 21.6
West Haven 12 54.0 10.6 41.4 17.2
;
run;
proc print;
/* Always check to see if data step is OK */
run;
proc genmod data=lottery;
model winners = area pop / dist=Poisson obstats;
ods output obstats=fitted;
run;
title2 'Fitted information from proc genmod';
proc print data=fitted;
run;
基本输出分析
输出包含拟合的参数 α 和两个 β,每个参数都有估计的标准误差和 95% 置信区间。卡方统计量用于检验零假设,即底层(总体)参数值为 0。p 值显示在表的最后一列。从输出中可以看出,城镇人口在解释不同城镇的彩票中奖平均人数方面非常重要,而城镇面积在该模型中的解释价值较小。
还可以使用卡方统计量和偏差统计量来大致评估模型的拟合情况,卡方统计量除以自由度的值接近 1 表示拟合良好。
3. 总结与展望
3.1 逻辑回归与泊松回归的对比
逻辑回归和泊松回归是两种不同但又在实际应用中各有优势的回归分析方法。下面通过表格来对比它们的特点:
| 回归类型 | 适用数据类型 | 模型目的 | 链接函数 | 实际应用场景 |
| ---- | ---- | ---- | ---- | ---- |
| 逻辑回归 | 二元响应变量 | 分析变量与二元结果之间的关系 | 通常为对数几率函数 | 护士手套使用情况、体育比赛胜负分析 |
| 泊松回归 | 计数数据 | 建模事件发生的平均次数 | 对数函数 | 彩票中奖人数、战争袭击次数分析 |
3.2 实际应用中的注意事项
在实际应用逻辑回归和泊松回归时,需要注意以下几点:
1.
数据质量
:数据中可能存在缺失值、异常值等问题,如护士手套使用数据和匹兹堡钢人队比赛数据中都有缺失值,需要对这些数据进行合理处理,如使用“最后值结转”方法填充缺失值,但要注意这种方法可能对结果产生的影响。
2.
模型假设
:泊松回归假设事件发生的概率较小且相互独立,但在实际情况中,如伊拉克袭击数据,事件可能存在自相关性,这就需要对模型进行进一步的调整和验证。
3.
变量选择
:在构建回归模型时,要选择合适的变量,如在彩票中奖人数的泊松回归中,城镇人口对解释中奖人数很重要,而城镇面积的解释价值较小,因此需要根据实际情况筛选变量。
3.3 未来应用趋势
随着数据科学和统计学的不断发展,逻辑回归和泊松回归在更多领域将有更广泛的应用。例如:
1.
医疗保健领域
:可以使用逻辑回归分析患者的治疗效果与多种因素之间的关系,使用泊松回归分析疾病的发病率。
2.
金融领域
:逻辑回归可用于信用风险评估,泊松回归可用于分析金融市场中的异常事件发生次数。
3.
环境科学领域
:逻辑回归可用于分析环境因素对生物生存的影响,泊松回归可用于分析自然灾害的发生次数。
3.4 流程图总结
下面是一个 mermaid 格式的流程图,总结了逻辑回归和泊松回归的应用流程:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([开始]):::startend --> B{选择回归类型}:::decision
B -->|二元响应变量| C(逻辑回归):::process
B -->|计数数据| D(泊松回归):::process
C --> E(数据预处理):::process
D --> E
E --> F(构建模型):::process
F --> G(模型评估):::process
G --> H{模型是否合适}:::decision
H -->|是| I([结束]):::startend
H -->|否| J(调整模型):::process
J --> F
3.5 总结
逻辑回归和泊松回归是统计学中非常重要的回归分析方法,它们在不同的数据类型和实际问题中发挥着关键作用。通过对护士手套使用情况、体育比赛数据、彩票中奖情况和战争袭击数据的分析,我们展示了这两种回归方法的具体应用过程和注意事项。在未来的实际应用中,我们需要根据数据特点和问题需求,合理选择和使用这两种回归方法,以获得更准确的分析结果。
希望本文能够帮助读者更好地理解逻辑回归和泊松回归的原理和应用,为实际问题的解决提供有力的支持。
以上就是关于逻辑回归诊断与泊松回归应用的全部内容,通过对这些方法的深入学习和实践,我们可以更好地处理各种实际问题中的数据,做出更准确的决策。
超级会员免费看
1455

被折叠的 条评论
为什么被折叠?



