21、回归分析:逻辑回归诊断与泊松回归的应用

回归分析:逻辑回归诊断与泊松回归的应用

1. 逻辑回归诊断

1.1 护士手套使用情况研究

为了提高儿科护士使用手套的频率,在一家市中心儿科医院的急诊科进行了一项研究。研究人员在护士不知情的情况下,观察他们在血管手术过程中使用手套的情况。观察时间点包括培训期之前以及培训期之后的 1 个月、2 个月和 5 个月。

数据特征

数据具有纵向性质,即随着时间推移进行观察。每个护士在最多四个不同时间段内被观察,且观察结果(使用或不使用手套)为二元值。

经验年限 观察期 1(观察次数,戴手套次数) 观察期 2(观察次数,戴手套次数) 观察期 3(观察次数,戴手套次数) 观察期 4(观察次数,戴手套次数)
15 (2, 1) (7, 6) (1, 1) (2, 2)
1 (6, 5) (11, 10) (9, 9) (3, 3)
分析步骤
  1. 创建二元指标变量 :将第一个观察期设为 0,所有培训后观察期设为 1。使用该指标进行逻辑回归,以查看培训前后手套使用是否存在(边际)差异。
  2. 经验与手套使用关系 :分析手套使用的(边际)比率是否随经验年限增加或减少,并进行简单解释。
  3. 交互作用分析 :查看培训前后指标与观察期之间的交互作用,以确定培训后是否存在趋势,以及该趋势是否与护士经验无关。
  4. 异常值和有影响的观察值 :使用逻辑回归诊断方法识别异常值或有影响的观察值。
  5. 经验指标变量 :创建一个表示经验是否超过 5 年的指标变量,分析观察到的手术次数与该经验指标之间的关系,并解释结果。
  6. 个体行为变化 :将每个护士培训前的手套使用频率分为高于或低于 50%,培训后也进行同样分类,制作 2×2 表格,查看经验超过和低于 5 年的护士在这两个频率表上是否存在差异。
  7. 缺失值分析 :数据中存在大量缺失值,分析缺失观察值的频率是否与经验年限有关,以及缺失值在培训前后对于经验多或少的护士是否更常见,并尝试解释原因。还可以使用“最后值结转”方法填充缺失值,查看是否会改变其他问题的结论。

1.2 体育统计:匹兹堡钢人队冲刺比赛

研究给出了匹兹堡钢人队 21 年的历史数据,包括三位不同教练的执教情况,以及每年的胜负记录、冲刺尝试排名和获得码数排名。

数据特点

每年的数据仅代表名义上的同一支球队,因为球员职业生涯相对较短,教练每年面对的球员不同,球队数量也有所变化。

年份 获胜场次 失败场次 冲刺尝试排名 获得码数排名 教练
1988 5 11 13 6 Chuck Noll
1989 9 7 11 18 Chuck Noll
分析步骤
  1. 逻辑回归分析 :使用逻辑回归分析冲刺比赛对球队胜负记录的影响,包括冲刺和获得码数与胜负记录之间的关联。
  2. 教练差异分析 :比较三位教练在冲刺方面的差异,包括他们对冲刺的重视程度和成功率,以及冲刺次数的依赖程度是否随年份变化。
  3. 交互作用和成功率分析 :查看尝试码数和冲刺次数之间是否存在交互作用,以及某些年份的冲刺是否更成功。
  4. 异常值和有影响的年份 :寻找有影响的观察值和异常值,解释 2003 赛季的异常情况,以及为什么教练 Mike Tomlin 执教的年份和最早的年份具有影响力。

2. 泊松回归

2.1 泊松分布基础

泊松分布是当二项模型的 n 参数较大且 p 参数较小时的近似。它是公共卫生领域最重要的离散分布之一,适用于许多个体面临某一事件但该事件对任何一个个体发生概率都很小的情况,如鲨鱼袭击、彩票中奖、雷击、癌症发病率、工业伤害、手术并发症和双胞胎出生等。

泊松分布与二项分布的关系

泊松分布是大 N 和小 p 时二项分布的近似,但难以确定具体何时该使用泊松分布而非二项分布。如果需要精确值,应使用二项分布;但计算大 N 的阶乘可能会很困难,此时泊松分布是一个较好的选择。

泊松分布的特点
  • 均值和方差相等 :泊松分布的均值和方差都用希腊字母 λ 表示,λ 可以是任何正数,不一定是整数。
  • 结果为非负整数 :与二项分布一样,泊松分布的结果必须是非负整数,且范围是无限的。
  • 概率公式 :在均值为 λ 的泊松分布中,j 个事件发生的概率为 $Pr[j 事件] = e^{-\lambda}\lambda^j/j!$。
不同 λ 值下的泊松分布
  • 当 λ = 0.5 时,大部分概率集中在 0 和 1 事件上,较大值发生的可能性很小。
  • 当 λ = 2 时,均值和方差都增加,可能值的范围扩大到 0 到 5 之间,大于 7 的值很少出现。
  • 当 λ = 8 时,泊松分布开始近似于正态分布。

2.2 泊松回归模型

在泊松回归中,我们对事件数量的均值 λ 进行建模,目的是了解 λ 如何随数据中的其他协变量信息变化。

模型形式

不能简单地拟合 $\lambda = \alpha + \beta_1 Area + \beta_2 Population$ 形式的模型,因为对于某些面积和人口值,可能会得到负数,而 λ 必须大于 0。因此,使用对数链接函数,拟合模型形式为 $\log(\lambda) = \alpha + \beta_1x_1 + \beta_2x_2 + \cdots$,等价于 $\lambda = \exp(\alpha + \beta_1x_1 + \beta_2x_2 + \cdots)$,这样无论 xs 和估计参数 α、β 的值如何,λ 的估计值都不会为负。

2.3 新闻统计实例

彩票中奖情况

以纽黑文地区几个不同城镇的彩票中奖情况为例,有大量人购买彩票,但中奖概率非常小。我们可以使用泊松回归来建立数学模型,描述不同城镇的中奖人数,考虑城镇的面积、人口、财产税税率等特征。

伊拉克袭击情况

图展示了截至 2008 年 1 月伊拉克的总袭击次数,并将其分为联军(外国军队)、伊拉克安全部队(国内军队)和平民三类。泊松假设似乎成立,因为在给定月份中,任何人遭受袭击的概率很小,且袭击次数的均值和方差随均值增加而增加。

但袭击次数在相邻月份之间可能存在自相关性,因为它们取决于部队调动和战斗部队的其他协调活动。整体趋势呈波浪状,可能与季节变化有关,每年夏季和秋季袭击次数增加,1 月则减少。

2.4 SAS 中的泊松回归

以下是一个使用 SAS 拟合泊松回归模型到彩票数据的程序示例:

title1 'Lottery winners in towns near New Haven';
data lottery;
    input name $ 1-14 winners pop area mill books;
    label
        winners = '# of major lottery winners'
        pop = 'population in thousands'
        area = 'area in sq miles'
        mill = 'mill rate for property taxes'
        books = 'number of books per student';
    datalines;
    Ansonia 6 17.9 6.2 28.9 16.4
    Branford 11 28.0 27.9 22.6 18.0
    Cheshire 6 26.2 33.0 27.1 21.0
    Clinton 2 12.8 17.2 27.9 20.5
  ...
    Trumbull 14 33.0 23.5 24.1 21.6
    West Haven 12 54.0 10.6 41.4 17.2
    ;
run;

proc print;
    /* Always check to see if data step is OK */
run;

proc genmod data=lottery;
    model winners = area pop / dist=Poisson obstats;
    ods output obstats=fitted;
run;

title2 'Fitted information from proc genmod';
proc print data=fitted;
run;
基本输出分析

输出包含拟合的参数 α 和两个 β,每个参数都有估计的标准误差和 95% 置信区间。卡方统计量用于检验零假设,即底层(总体)参数值为 0。p 值显示在表的最后一列。从输出中可以看出,城镇人口在解释不同城镇的彩票中奖平均人数方面非常重要,而城镇面积在该模型中的解释价值较小。

还可以使用卡方统计量和偏差统计量来大致评估模型的拟合情况,卡方统计量除以自由度的值接近 1 表示拟合良好。

3. 总结与展望

3.1 逻辑回归与泊松回归的对比

逻辑回归和泊松回归是两种不同但又在实际应用中各有优势的回归分析方法。下面通过表格来对比它们的特点:
| 回归类型 | 适用数据类型 | 模型目的 | 链接函数 | 实际应用场景 |
| ---- | ---- | ---- | ---- | ---- |
| 逻辑回归 | 二元响应变量 | 分析变量与二元结果之间的关系 | 通常为对数几率函数 | 护士手套使用情况、体育比赛胜负分析 |
| 泊松回归 | 计数数据 | 建模事件发生的平均次数 | 对数函数 | 彩票中奖人数、战争袭击次数分析 |

3.2 实际应用中的注意事项

在实际应用逻辑回归和泊松回归时,需要注意以下几点:
1. 数据质量 :数据中可能存在缺失值、异常值等问题,如护士手套使用数据和匹兹堡钢人队比赛数据中都有缺失值,需要对这些数据进行合理处理,如使用“最后值结转”方法填充缺失值,但要注意这种方法可能对结果产生的影响。
2. 模型假设 :泊松回归假设事件发生的概率较小且相互独立,但在实际情况中,如伊拉克袭击数据,事件可能存在自相关性,这就需要对模型进行进一步的调整和验证。
3. 变量选择 :在构建回归模型时,要选择合适的变量,如在彩票中奖人数的泊松回归中,城镇人口对解释中奖人数很重要,而城镇面积的解释价值较小,因此需要根据实际情况筛选变量。

3.3 未来应用趋势

随着数据科学和统计学的不断发展,逻辑回归和泊松回归在更多领域将有更广泛的应用。例如:
1. 医疗保健领域 :可以使用逻辑回归分析患者的治疗效果与多种因素之间的关系,使用泊松回归分析疾病的发病率。
2. 金融领域 :逻辑回归可用于信用风险评估,泊松回归可用于分析金融市场中的异常事件发生次数。
3. 环境科学领域 :逻辑回归可用于分析环境因素对生物生存的影响,泊松回归可用于分析自然灾害的发生次数。

3.4 流程图总结

下面是一个 mermaid 格式的流程图,总结了逻辑回归和泊松回归的应用流程:

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A([开始]):::startend --> B{选择回归类型}:::decision
    B -->|二元响应变量| C(逻辑回归):::process
    B -->|计数数据| D(泊松回归):::process
    C --> E(数据预处理):::process
    D --> E
    E --> F(构建模型):::process
    F --> G(模型评估):::process
    G --> H{模型是否合适}:::decision
    H -->|是| I([结束]):::startend
    H -->|否| J(调整模型):::process
    J --> F

3.5 总结

逻辑回归和泊松回归是统计学中非常重要的回归分析方法,它们在不同的数据类型和实际问题中发挥着关键作用。通过对护士手套使用情况、体育比赛数据、彩票中奖情况和战争袭击数据的分析,我们展示了这两种回归方法的具体应用过程和注意事项。在未来的实际应用中,我们需要根据数据特点和问题需求,合理选择和使用这两种回归方法,以获得更准确的分析结果。

希望本文能够帮助读者更好地理解逻辑回归和泊松回归的原理和应用,为实际问题的解决提供有力的支持。

以上就是关于逻辑回归诊断与泊松回归应用的全部内容,通过对这些方法的深入学习和实践,我们可以更好地处理各种实际问题中的数据,做出更准确的决策。

基于径向基函数神经网络RBFNN的自适应滑模控制学习(Matlab代码实现)内容概要:本文介绍了基于径向基函数神经网络(RBFNN)的自适应滑模控制方法,并提供了相应的Matlab代码实现。该方法结合了RBF神经网络的非线性逼近能力和滑模控制的强鲁棒性,用于解决复杂系统的控制问题,尤其适用于存在不确定性和外部干扰的动态系统。文中详细阐述了控制算法的设计思路、RBFNN的结构权重更新机制、滑模面的构建以及自适应律的推导过程,并通过Matlab仿真验证了所提方法的有效性和稳定性。此外,文档还列举了大量相关的科研方向和技术应用,涵盖智能优化算法、机器学习、电力系统、路径规划等多个领域,展示了该技术的广泛应用前景。; 适合人群:具备一定自动控制理论基础和Matlab编程能力的研究生、科研人员及工程技术人员,特别是从事智能控制、非线性系统控制及相关领域的研究人员; 使用场景及目标:①学习和掌握RBF神经网络滑模控制相结合的自适应控制策略设计方法;②应用于电机控制、机器人轨迹跟踪、电力电子系统等存在模型不确定性或外界扰动的实际控制系统中,提升控制精度鲁棒性; 阅读建议:建议读者结合提供的Matlab代码进行仿真实践,深入理解算法实现细节,同时可参考文中提及的相关技术方向拓展研究思路,注重理论分析仿真验证相结合。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值