XGBoost回归模型设计与实现：医疗诊断中的糖尿病风险预测

最新推荐文章于 2025-07-25 01:00:00 发布

徐福记c

最新推荐文章于 2025-07-25 01:00:00 发布

阅读量313

点赞数 1

CC 4.0 BY-SA版权

分类专栏：算法文章标签：回归数据挖掘人工智能

本文链接：https://blog.youkuaiyun.com/xuukai/article/details/146890070

算法专栏收录该内容

81 篇文章

订阅专栏

1. 模型设计思路

问题定义

我们面临的是一个医疗诊断问题，目标是基于患者的体检数据（如血糖、血压、BMI、年龄等）预测糖尿病风险。这可以被建模为：

回归问题：预测血糖水平（连续值）
分类问题：判断患者是否患有糖尿病（二分类）

模型选择

XGBoost（Extreme Gradient Boosting）是解决这类问题的优秀选择，原因包括：

高效处理结构化数据
自动处理缺失值
内置正则化防止过拟合
支持并行计算加速训练

特征工程

原始特征：血糖、血压、BMI、年龄等
衍生特征：可能包括年龄分段、BMI分类、生理指标组合等
特征缩放：虽然XGBoost对特征缩放不敏感，但适当的预处理可能提高模型性能

模型评估

回归模型：使用均方误差(MSE)、均方根误差(RMSE)、R²分数等指标
分类模型：使用准确率、精确率、召回率、F1分数、AUC-ROC曲线等指标

2. Python代码实现

以下是完整的代码实现，包括数据加载、预处理、模型训练、评估和可解释性分析：

# 导入必要的库
import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, classification_report, roc_auc_score
import shap
import matplotlib.pyplot as plt
import seaborn as sns

# 加载数据（假设数据已预处理为CSV格式）
# 数据应包含特征列和目标列（如"blood_sugar"或"diabetes"）
data = pd.read_csv("diabetes_data.csv")

# 查看数据基本信息
print("数据基本信息：")
print(data.info())
print("\n数据描述性统计：")
print(data.describe())

# 特征和目标变量分离
# 回归任务：预测血糖水平
# X = data.drop(columns=["diabetes", "blood_sugar"])
# y = data["blood_sugar"]

# 分类任务：判断是否患有糖尿病
X = data.drop(columns=["diabetes", "blood_sugar"])
y = data["diabetes"]

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 转换为DMatrix格式（XGBoost专用数据结构）
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

# 设置模型参数
params = {
    'objective': 'binary:logistic',  # 二分类任务
    # 'objective': 'reg:squarederror',  # 回归任务
    'max_depth': 6,
    'learning_rate': 0.1,
    'n_estimators': 100,
    'subsample': 0.8,
    'colsample_bytree': 0.8,
    'gamma': 0,
    'reg_lambda': 1,
    'scale_pos_weight': sum(y == 0) / sum(y == 1)  # 处理类别不平衡
}

# 训练模型
model = xgb.train(
    params,
    dtrain,
    num_boost_round=100,
    evals=[(dtest, 'test')],
    early_stopping_rounds=10
)

# 预测
# 回归任务
# y_pred = model.predict(dtest)

# 分类任务
y_pred_proba = model.predict(dtest)
y_pred = (y_pred_proba > 0.5).astype(int)

# 评估模型
# 回归评估指标
# print(f"均方误差 (MSE): {mean_squared_error(y_test, y_pred)}")
# print(f"均方根误差 (RMSE): {np.sqrt(mean_squared_error(y_test, y_pred))}")
# print(f"R² 分数: {r2_score(y_test, y_pred)}")

# 分类评估指标
print(f"准确率: {accuracy_score(y_test, y_pred)}")
print(f"AUC-ROC: {roc_auc_score(y_test, y_pred_proba)}")
print("\n分类报告:")
print(classification_report(y_test, y_pred))

# 特征重要性分析
print("\n特征重要性:")
importance = model.get_score(importance_type='weight')
features = list(importance.keys())
scores = list(importance.values())

# 可视化特征重要性
plt.figure(figsize=(10, 6))
sns.barplot(x=scores, y=features)
plt.title('XGBoost Feature Importance')
plt.xlabel('Importance Score')
plt.ylabel('Features')
plt.show()

# 使用SHAP值进行模型解释
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)

# 可视化SHAP值
shap.summary_plot(shap_values, X_test, feature_names=X.columns)

# 保存模型
model.save_model('xgboost_diabetes_model.json')