医疗数据的因果推断方法

最新推荐文章于 2025-12-18 11:52:33 发布

原创最新推荐文章于 2025-12-18 11:52:33 发布 · 367 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

智能运维专栏收录该内容

20 篇文章

订阅专栏

📝 博客主页：jaxzheng的优快云主页

医疗数据中的因果推断方法

引言

在医疗数据分析领域，因果推断是理解干预措施（如药物治疗、手术方案）对患者健康结果影响的核心技术。与相关性分析不同，因果推断能揭示“如果实施干预，结果会如何变化”的本质关系，避免混杂因素（如年龄、基础疾病）导致的误判。随着电子健康记录（EHR）和医疗大数据的普及，高效可靠的因果推断方法成为精准医疗决策的关键支撑。

因果推断方法流程图

常见因果推断方法

倾向得分匹配（Propensity Score Matching）

倾向得分匹配通过计算每个患者接受干预的概率（倾向得分），将治疗组与对照组在协变量分布上匹配，从而减少选择偏倚。其核心思想是模拟随机对照试验（RCT）。

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 模拟医疗数据（n=1000患者）
np.random.seed(42)
data = pd.DataFrame({
    'age': np.random.normal(50, 15, 1000),
    'comorbidity_score': np.random.uniform(0, 5, 1000),
    'treatment': np.random.binomial(1, 0.4, 1000),  # 1=接受治疗
    'outcome': 0.8 * np.random.binomial(1, 0.3) + 0.5 * np.random.normal(0, 1, 1000)  # 假设结果
})

# 计算倾向得分
X = data[['age', 'comorbidity_score']]
y = data['treatment']
model = LogisticRegression()
model.fit(X, y)
data['propensity'] = model.predict_proba(X)[:, 1]

# 匹配（简化版：按倾向得分排序后取最近邻）
data = data.sort_values('propensity')
matched_data = data.groupby('treatment').head(250).reset_index(drop=True)

# 估计处理效应
ate = matched_data[matched_data['treatment'] == 1]['outcome'].mean() - \
      matched_data[matched_data['treatment'] == 0]['outcome'].mean()
print(f"平均处理效应 (ATE): {ate:.3f}")

双重差分法（Difference-in-Differences）

双重差分法适用于时间序列数据，通过比较干预前后处理组与对照组的差异，消除时间趋势和固定效应的影响。常用于评估政策变化（如新药上市）的长期效果。

import statsmodels.api as sm

# 模拟时间序列数据（干预前/后，处理组/对照组）
np.random.seed(42)
time = ['pre', 'post'] * 500
group = ['treatment'] * 500 + ['control'] * 500
df = pd.DataFrame({
    'time': time,
    'group': group,
    'outcome': np.random.normal(5, 1, 1000)  # 基础结果
})

# 添加干预效应（处理组在干预后平均提升2）
df.loc[(df['time'] == 'post') & (df['group'] == 'treatment'), 'outcome'] += 2

# 创建交互项
df['post'] = df['time'].apply(lambda x: 1 if x == 'post' else 0)
df['treatment_post'] = df['group'].apply(lambda x: 1 if x == 'treatment' else 0) * df['post']

# 双重差分模型
X = sm.add_constant(df[['treatment_post', 'post', 'group']])
y = df['outcome']
model = sm.OLS(y, X).fit()
print(model.summary().tables[0])

医疗数据因果关系示例

机器学习与因果推断的融合

传统方法在高维数据中面临挑战，而机器学习技术（如因果森林）能自动处理复杂交互。以下使用causalml库实现因果森林：

from causalml.inference.meta import XGBTRegressor
from causalml.dataset import make_uplift_classification

# 生成合成医疗数据（含处理效应）
X, treatment, y = make_uplift_classification(
    n_samples=1000, 
    n_features=5, 
    treatment_effect=0.4,
    random_state=42
)

# 构建因果森林模型
model = XGBTRegressor()
model.fit(X, treatment, y)

# 估计个体处理效应 (ITE)
ite = model.predict(X)
print("前5个个体处理效应:", ite[:5])