23、泊松回归与生存分析：体育、医学与统计的交叉探索

最新推荐文章于 2025-11-24 05:46:13 发布

Apple

最新推荐文章于 2025-11-24 05:46:13 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：线性模型与SAS实战解析文章标签：泊松回归生存分析体育统计

本文链接：https://blog.youkuaiyun.com/apple/article/details/154973206

线性模型与SAS实战解析专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

泊松回归与生存分析：体育、医学与统计的交叉探索

1. 泊松回归在体育与医学数据中的应用

1.1 橄榄球运动员职业碗出场次数分析

橄榄球是一项考验力量和速度的运动，运动员的冲球码数常被视为衡量其表现的重要指标。以下是部分知名跑卫的职业生涯冲球码数和职业碗出场次数数据：
| 姓名 | 是否现役 | 冲球码数 | 职业碗出场次数 |
| — | — | — | — |
| Emmit Smith | 否 | 18355 | 8 |
| Walter Payton | 否 | 16726 | 9 |
| Barry Sanders | 否 | 15269 | 10 |
| … | … | … | … |
| Fred Taylor | 是 | 9933 | 0 |
| LaDainian Tomlinson | 是 | 9793 | 4 |

从这些数据中我们可以提出一系列问题。使用泊松回归分析，我们旨在探究冲球码数与职业碗出场次数之间的关系。具体步骤如下：
1. 构建模型 ：创建一个指示变量来区分球员是现役还是退役，并将其纳入模型。
2. 检验交互作用 ：检查指示变量与总冲球码数之间是否存在显著的交互作用。
3. 识别异常值 ：比较不同球员的残差，判断是否有异常值。例如，Fred Taylor 从未入选职业碗，他的残差与仅有一次职业碗出场的 John Riggins 相比如何？是否还有其他数据值得注意的异常值？
4. 变量转换 ：由于部分球员的冲球记录远强于其他球员，可尝试对冲球码数变量进行对数或平方根转换，以消除这些球员对拟合模型的影响，并判断转换后的模型是否拟合得更好。
5. 评估模型适用性 ：思考泊松模型在这些数据中的整体拟合情况，判断其是否为有效应用，并与其他案例中的泊松模型使用进行比较。

1.2 日本睾丸癌死亡率分析

政府机构收集的生命率数据对于许多方面都至关重要。以日本 1946 - 1970 年间男性睾丸癌死亡数据为例，按 5 年间隔和 5 岁年龄组进行了统计，数据如下：
| 年龄 | 1947 - 1949 年 | | 1951 - 1955 年 | | 1956 - 1960 年 | | 1961 - 1965 年 | | 1966 - 1970 年 | |
| — | — | — | — | — | — | — | — | — | — | — |
| | 人口（千） | 死亡人数 | 人口（千） | 死亡人数 | 人口（千） | 死亡人数 | 人口（千） | 死亡人数 | 人口（千） | 死亡人数 |
| 0 | 15501 | 17 | 26914 | 51 | 21027 | 65 | 20246 | 69 | 21596 | 74 |
| 5 | 14236 | * | 25380 | 6 | 26613 | 7 | 20885 | 8 | 20051 | 7 |
| … | … | … | … | … | … | … | … | … | … | … |

对于这些数据，我们可以进行以下分析：
1. 判断分布适用性 ：思考泊松分布是否适用于该数据，并说明原因。
2. 拟合模型 ：拟合一个包含年份和年龄效应的模型，观察残差，查看是否存在随年份变化的趋势。
3. 解释现象 ：注意到 40 岁后患癌风险增加，但 80 岁后似乎降低，尝试解释这一现象。
4. 模型构建问题 ：尝试拟合一个包含年龄、时期和队列三个独立效应的模型，分析可能出现的问题，并结合多重共线性的概念解释困难所在。

以下是用于读取和重新格式化这些数据的 SAS 程序：

title1 'Death rates for testicular cancer in Japan';
data cancer;
    array p(5) p1-p5;
    array d(5) d1-d5;
    input age
          p1 d1
          p2 d2
          p3 d3
          p4 d4
          p5 d5;
    age=1+age/5;
    /* make age categories 1,..,18 */
    do i=1 to 5;
        keep pop death age period cohort;
        cohort=age-i;
        period=i;
        pop=p(i);
        death=d(i);
        output; /* one input line equals five on output */
    end;
    datalines;
0 15501 17 26914 51 21027 65 20246 69 21596 74
5 14236. 25380 6 26613 7 20885 8 20051 7
10 13270. 23492 3 25324 3 26540 7 20718 11
15 12658 2 21881 6 23211 15 24931 25 26182 39
...
75 688 5 1587 9 1812 10 2061 25 2482 31
80 264 2 583 6 787 6 904 14 1068 9
85 73 2 179 2 246 3 335 3 419 3
;
run;
proc print;
    /* examine the reformatted data */
run;
proc genmod;
    class age period cohort;
    model death = pop age period / dist=Poisson obstats;
run;
quit;

1.3 图雷特综合症患者研究

在耶鲁儿童研究中心进行的一项实验中，研究人员探讨了纳洛酮对图雷特综合症患者的影响。图雷特综合症患者会出现频繁的不自主抽搐（运动性）或言语爆发（发声性）症状。研究选取了 14 名患者，分别给予三种不同剂量的纳洛酮，并在三个 1 小时的观察期内记录他们的运动性和发声性抽搐次数，数据如下：
| 患者编号 | 纳洛酮剂量（mcg） | 第一阶段 | | 第二阶段 | | 第三阶段 | |
| — | — | — | — | — | — | — | — |
| | | 运动性抽搐 | 发声性抽搐 | 运动性抽搐 | 发声性抽搐 | 运动性抽搐 | 发声性抽搐 |
| 1 | 300 | 90 | 45 | 86 | 51 | 106 | 57 |
| 2 | 30 | 75 | 0 | 243 | 0 | 152 | 0 |
| … | … | … | … | … | … | … | … |

针对这些数据，我们可以进行以下分析：
1. 模型选择 ：思考是否应分别对运动性和发声性抽搐进行建模，还是将两者之和作为更合适的衡量指标。
2. 时期效应检验 ：查看是否有证据表明存在“时期效应”，即随着患者适应环境，抽搐次数是否会发生变化。
3. 剂量效果比较 ：比较不同剂量的纳洛酮与对照组的抽搐率，判断是否存在差异，并评估纳洛酮效应与时期效应的大小关系。

2. 生存分析的概念与应用

2.1 生存分析的基本概念

生存分析主要关注事件发生的时间，而不仅仅是受试者的死亡。例如，孩子学会系鞋带的年龄就是一个生存时间的例子。生存数据的特殊之处在于，在分析时并非所有受试者的事件数据都已完全观察到，这种情况被称为删失。以下是几种常见的删失类型：
- 右删失 ：最常见的类型，已知时间线的起点，但终点在分析时可能尚未发生。例如，学生完成学位所需的时间，有些学生可能提前完成，有些则未完成，未完成的学生数据就是右删失。
- 左删失 ：不知道事件发生的起始时间，只知道在某个检测日期之前已经发生。例如，HIV 感染的起始时间，有时只能知道感染发生在首次检测到感染之前。
- 区间删失 ：事件的起始或结束时间可能发生在某个时间区间内。例如，HIV 感染进展到 AIDS 的时间，由于 CD4 + 细胞计数不是连续监测的，可能无法确定具体的阈值达到时间。

mermaid 流程图展示删失类型：

graph LR
    A[删失类型] --> B[右删失]
    A --> C[左删失]
    A --> D[区间删失]
    B --> E[已知起点，终点未发生]
    C --> F[不知起始时间]
    D --> G[时间在区间内]

2.2 生存曲线及其估计

生存曲线用于估计在给定时间内已经经历事件的受试者比例。它从时间为 0 时的 1（或 100%）开始，以一系列步骤下降，曲线可以是平坦的，但永远不会上升。生存曲线的估计通常称为乘积限或 Kaplan - Meier 曲线。

以急性髓性白血病（AML）患者的缓解时间数据为例，患者接受两种不同的治疗：维持治疗和无额外治疗。以下是部分数据：
| 治疗情况 | 缓解时间（周） | 是否复发（1 为是，0 为否） |
| — | — | — |
| 维持治疗 | 9 | 1 |
| 维持治疗 | 13 | 1 |
| … | … | … |
| 未维持治疗 | 5 | 1 |
| 未维持治疗 | 5 | 1 |

从生存曲线中我们可以看出，维持治疗组的患者通常有更长的缓解时间。生存曲线还有两个值得注意的特征：
- 删失标记 ：小垂直标记表示删失观察的位置，有助于查看删失观察的分布。如果早期有许多删失观察，可能表示随访时间不足；如果一个治疗组的删失观察更多，可能违反了删失与事件时间独立的假设。
- 长尾问题 ：曲线右侧的长尾并不一定意味着长期治愈，可能只是最长观察值被删失。我们应更关注曲线左上角数据集中的部分。

下面通过一个小数据集展示如何构建 Kaplan - Meier 生存曲线：
| 事件时间 | 1 | 2.5 + | 3 | 3 | 3 + | 4 | 4.5 + | 6 |
| — | — | — | — | — | — | — | — | — |
| 风险人数 | 8 | - | 6 | - | 3 | - | 1 | |
| 事件数 | 1 | - | 2 | - | 1 | - | 1 | |
| 估计事件概率 | 1/8 | - | 1/3 | - | 1/3 | - | 1 | |
| 估计无事件概率 | 7/8 | - | 2/3 | - | 2/3 | - | 0 | |
| K - M 估计 | 7/8 | - | 7/12 | - | 7/18 | - | 0 | |

构建 Kaplan - Meier 生存曲线的步骤如下：
1. 确定风险人数 ：在每个指定时间，风险人数是已知事件时间在此时或之后的个体数量。
2. 计算事件概率 ：事件概率 = 事件数 / 风险人数。
3. 计算无事件概率 ：无事件概率 = 1 - 事件概率。
4. 计算生存概率 ：生存到任何给定时间的概率是到该点所有生存概率的乘积。

生存曲线在统计分析中具有重要作用，它可以直观地展示事件发生时间的数据，帮助我们比较不同组之间的差异。在后续的研究中，我们还可以使用回归模型来进一步分析生存曲线与多个解释变量之间的关系。

泊松回归与生存分析：体育、医学与统计的交叉探索

3. 生存分析的统计比较与实际应用

3.1 生存曲线的统计比较

在生存分析中，我们常常需要比较不同组的生存曲线，以判断不同处理或因素对事件发生时间的影响。以之前提到的急性髓性白血病（AML）患者为例，我们有维持治疗组和未维持治疗组的生存曲线。通过一些简单的统计方法，我们可以对这两条生存曲线进行比较。

在实际操作中，我们可以使用统计软件（如 SAS）来进行这些比较。以下是一个简单的流程说明：
1. 数据准备 ：将患者的缓解时间、是否复发以及治疗组信息整理成合适的数据格式，确保数据的准确性和完整性。
2. 选择统计方法 ：根据数据的特点和研究目的，选择合适的统计方法进行生存曲线的比较，如对数秩检验等。
3. 运行统计分析 ：使用统计软件（如 SAS）中的相应过程（如 proc lifetest ）进行分析，并设置好所需的参数。
4. 结果解读 ：根据分析结果中的 p 值等统计指标，判断两组生存曲线是否存在显著差异。如果 p 值小于设定的显著性水平（通常为 0.05），则认为两组之间存在显著差异。

3.2 生存分析在实际中的应用案例

生存分析在许多领域都有广泛的应用，下面通过几个具体的案例来进一步说明。

案例一：癌症患者的治疗效果评估
在一项癌症患者的临床研究中，研究人员比较了两种不同治疗方法对患者生存时间的影响。通过绘制生存曲线并进行统计比较，他们发现一种新的治疗方法可以显著延长患者的生存时间。这一结果为临床治疗提供了重要的参考依据，有助于医生选择更有效的治疗方案。

案例二：产品可靠性分析
在工业领域，生存分析可以用于评估产品的可靠性。例如，对于某种电子产品，研究人员可以记录产品从开始使用到出现故障的时间，将其视为生存时间。通过分析这些数据，他们可以了解产品的故障模式和可靠性特征，从而采取相应的措施来提高产品的质量和可靠性。

案例三：金融风险评估
在金融领域，生存分析可以用于评估借款人的违约风险。例如，银行可以记录借款人从贷款发放到违约的时间，将其视为生存时间。通过分析这些数据，银行可以了解借款人的违约概率和违约时间分布，从而制定更合理的信贷政策和风险管理策略。

4. 泊松回归与生存分析的综合应用与思考

4.1 泊松回归与生存分析的结合应用

泊松回归和生存分析虽然是两个不同的统计方法，但在某些情况下可以结合使用。例如，在研究某种疾病的发生时间和严重程度时，我们可以使用生存分析来分析疾病发生的时间，同时使用泊松回归来分析疾病的严重程度（如疾病发作的次数）。

以下是一个简单的结合应用示例：
1. 数据收集 ：收集患者的疾病发生时间、疾病发作次数以及相关的影响因素（如年龄、性别、治疗方法等）。
2. 生存分析 ：使用生存分析方法（如 Kaplan - Meier 曲线和对数秩检验）分析患者的疾病发生时间，比较不同组之间的差异。
3. 泊松回归 ：使用泊松回归模型分析疾病发作次数与影响因素之间的关系，评估各因素对疾病发作次数的影响程度。
4. 综合分析 ：将生存分析和泊松回归的结果进行综合分析，全面了解疾病的发生时间和严重程度与影响因素之间的关系。

4.2 对泊松回归和生存分析应用的思考

在应用泊松回归和生存分析时，我们需要注意以下几个问题：
1. 模型选择 ：根据数据的特点和研究目的，选择合适的模型进行分析。例如，对于计数数据，泊松回归可能是一个合适的选择；对于事件发生时间数据，生存分析可能更合适。
2. 数据质量 ：确保数据的质量和完整性，避免数据缺失、错误或异常值对分析结果的影响。在处理缺失数据时，可以采用合适的方法进行填补或处理。
3. 模型假设 ：在使用泊松回归和生存分析时，需要满足一定的模型假设。例如，泊松回归假设事件发生的次数服从泊松分布，生存分析假设删失与事件发生时间独立。在应用模型之前，需要对这些假设进行检验。
4. 结果解释 ：对分析结果进行合理的解释，避免过度解读或错误解读。在解释结果时，需要结合实际问题和研究背景，考虑结果的实际意义和应用价值。

5. 总结与展望

5.1 总结

本文介绍了泊松回归和生存分析的基本概念、应用案例以及相关的统计方法。泊松回归主要用于分析计数数据，通过建立模型来评估影响因素与事件发生次数之间的关系。生存分析则主要关注事件发生的时间，通过处理删失数据来分析不同组之间的生存曲线差异。

在实际应用中，泊松回归和生存分析可以分别用于不同的领域和问题，如体育、医学、工业和金融等。同时，这两种方法也可以结合使用，以更全面地了解事件的发生时间和严重程度与影响因素之间的关系。

5.2 展望

随着数据分析技术的不断发展和应用需求的不断增加，泊松回归和生存分析在未来将有更广泛的应用前景。例如，在大数据时代，我们可以收集到更多的数据，这为泊松回归和生存分析提供了更丰富的信息和更广阔的应用空间。

同时，我们也可以进一步探索泊松回归和生存分析的改进和拓展方法，以提高分析的准确性和可靠性。例如，结合机器学习和深度学习技术，开发更先进的模型和算法，以更好地处理复杂的数据和问题。

总之，泊松回归和生存分析作为重要的统计方法，将在未来的研究和实践中发挥越来越重要的作用，为我们解决各种实际问题提供有力的支持。

以下是一个 mermaid 流程图，展示泊松回归和生存分析的综合应用流程：

graph LR
    A[数据收集] --> B[数据预处理]
    B --> C{选择分析方法}
    C -->|泊松回归| D[泊松回归分析]
    C -->|生存分析| E[生存分析]
    D --> F[结果解读]
    E --> F
    F --> G[综合分析与决策]

通过这个流程图，我们可以清晰地看到泊松回归和生存分析在实际应用中的综合流程，从数据收集到最终的综合分析与决策，每个步骤都紧密相连，共同为解决实际问题提供支持。