Scikit-learn全流程指南：Python机器学习项目实战

原创于 2025-11-24 22:07:32 发布 · 801 阅读

CC 4.0 BY-SA版权

文章标签：

概述

Scikit-learn作为Python最流行的机器学习库，为数据科学家提供了完整的工具生态系统。本文将深入探讨scikit-learn在完整机器学习项目中的应用，从数据准备到模型部署，结合2025年最新最佳实践，展示如何构建高效可靠的机器学习流水线。
在这里插入图片描述

机器学习项目生命周期

项目阶段与关键活动

项目阶段	核心任务	关键技术	交付成果	常见挑战
业务理解	问题定义、目标制定	领域分析、KPI设定	项目章程、成功标准	需求不明确、期望管理
数据准备	数据收集、清洗、探索	Pandas、NumPy、EDA	清洗后的数据集、数据报告	数据质量、缺失值处理
特征工程	特征创建、选择、转换	Scikit-learn预处理	特征数据集、特征重要性	维度灾难、过拟合风险
模型开发	算法选择、训练、调优	模型选择、超参数优化	训练好的模型、性能报告	模型选择、计算资源
模型评估	性能验证、误差分析	交叉验证、指标分析	评估报告、改进建议	数据泄露、评估偏差
部署运维	模型部署、监控更新	Flask、Docker、监控	生产系统、监控面板	性能衰减、概念漂移

2025年Scikit-learn生态系统

import sklearn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_classification, make_regression

print(f"Scikit-learn版本: {sklearn.__version__}")

# 核心模块概览
sklearn_modules = {
    '数据预处理': ['preprocessing', 'impute', 'feature_selection'],
    '模型算法': ['linear_model', 'ensemble', 'svm', 'neighbors'],
    '模型选择': ['model_selection', 'metrics'],
    '流水线': ['pipeline', 'compose'],
    '工具函数': ['utils', 'exceptions']
}

# 创建示例数据集
def create_demo_datasets():
    """创建演示数据集"""
    # 分类数据集
    X_class, y_class = make_classification(
        n_samples=1000, n_features=20, n_informative=15,
        n_redundant=5, n_clusters_per_class=1, random_state=42
    )
    
    # 回归数据集  
    X_reg, y_reg = make_regression(
        n_samples=800, n_features=15, n_informative=10,
        noise=0.1, random_state=42
    )
    
    return (X_class, y_class), (X_reg, y_reg)

# 创建特征名称
feature_names = [f'feature_{i}' for i in range(20)]
class_names = ['Class_0', 'Class_1']

数据预处理与特征工程

自动化数据预处理流水线

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.preprocessing import StandardScaler, RobustScaler, OneHotEncoder
from sklearn.feature_selection import SelectKBest, f_classif, mutual_info_classif

class SmartDataPreprocessor:
    """智能数据预处理器"""
    
    def __init__(self, numeric_strategy='median', categorical_strategy='most_frequent'):
        self.numeric_strategy = numeric_strategy
        self.categorical_strategy = categorical_strategy
        self.preprocessor = None
        self.feature_names = []
    
    def detect_feature_types(self, df):
        """自动检测特征类型"""
        numeric_features = df.select_dtypes(include=[np.number]).columns.tolist()
        categorical_features = df.select_dtypes(include=['object', 'category']).columns.tolist()
        
        print(f"检测到数值特征: {len(numeric_features)}个")
        print(f"检测到类别特征: {len(categorical_features)}个")
        
        return numeric_features, categorical_features
    
    def create_preprocessing_pipeline(self, numeric_features, categorical_features):
        """创建预处理流水线"""
        # 数值特征处理器
        numeric_transformer = Pipeline(steps=[
            ('imputer', SimpleImputer(strategy=self.numeric_strategy)),
            ('scaler', RobustScaler()),  # 对异常值更鲁棒
            ('outlier', self.OutlierHandler())  # 自定义异常值处理
        ])
        
        # 类别特征处理器
        categorical_transformer = Pipeline(steps=[
            ('imputer', SimpleImputer(strategy=self.categorical_strategy, fill_value='missing')),
            ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False))
        ])
        
        # 组合处理器
        self.preprocessor = ColumnTransformer(
            transformers=[
                ('num', numeric_transformer, numeric_features),
                ('cat', categorical_transformer, categorical_features)
            ]
        )
        
        return self.preprocessor
    
    class OutlierHandler:
        """自定义异常值处理器"""
        def fit(self, X, y=None):
            self.q1 = np.percentile(X, 25, axis=0)
            self.q3 = np.percentile(X, 75, axis=0)
            self.iqr = self.q3 - self.q1
            return self
        
        def transform(self, X):
            X_transformed = X.copy()
            lower_bound = self.q1 - 1.5 * self.iqr
            upper_bound = self.q3 + 1.5 * self.iqr
            
            for i in range(X.shape[1]):
                mask = (X[:, i] < lower_bound[i]) | (X[:, i] > upper_bound[i])
                X_transformed[mask, i] = np.median(X[~mask, i]) if np.any(~mask) else 0
            
            return X_transformed

# 数据预处理示例
def demonstrate_preprocessing():
    """演示数据预处理流程"""
    # 创建包含缺失值和异常值的示例数据
    np.random.seed(42)
    data = pd.DataFrame({
        'age': np.random.normal(35, 10, 100),
        'income': np.random.lognormal(10, 1, 100),
        'education': np.random.choice(['高中', '本科', '硕士', '博士'], 100),
        'city': np.random.choice(['北京', '上海', '广州', '深圳'], 100)
    })
    
    # 故意添加一些缺失值和异常值
    data.loc[10:15, 'age'] = np.nan
    data.loc[20:25, 'income'] = np.nan
    data.loc[5, 'income'] = 1000000  # 异常值
    
    preprocessor = SmartDataPreprocessor()
    numeric_features, categorical_features = preprocessor.detect_feature_types(data)
    pipeline = preprocessor.create_preprocessing_pipeline(numeric_features, categorical_features)
    
    # 应用预处理
    processed_data = pipeline.fit_transform(data)
    
    print(f"原始数据形状: {data.shape}")
    print(f"处理后数据形状: {processed_data.shape}")
    print("预处理完成!")
    
    return pipeline, processed_data

# 运行预处理演示
pipeline, processed_data = demonstrate_preprocessing()

模型选择与训练策略

算法选择框架

from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score, StratifiedKFold

class ModelSelector:
    """模型选择器"""
    
    def __init__(self):
        self.classifiers = {
            '随机森林': RandomForestClassifier(n_estimators=100, random_state=42),
            '梯度提升': GradientBoostingClassifier(n_estimators=100, random_state=42),
            '支持向量机': SVC(probability=True, random_state=42),
            '逻辑回归': LogisticRegression(random_state=42)
        }
        
        self.performance_metrics = {}
    
    def evaluate_models(self, X, y, cv_strategy=None):
        """评估多个模型"""
        if cv_strategy is None:
            cv_strategy = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
        
        results = {}
        
        for name, model in self.classifiers.items():
            print(f"评估模型: {name}")
            
            # 交叉验证
            cv_scores = cross_val_score(model, X, y, cv=cv_strategy, scoring='accuracy')
            
            # 训练时间评估
            import time
            start_time = time.time()
            model.fit(X, y)
            training_time = time.time() - start_time
            
            results[name] = {
                'mean_accuracy': cv_scores.mean(),
                'std_accuracy': cv_scores.std(),
                'training_time': training_time,
                'cv_scores': cv_scores
            }
            
            print(f"  平均准确率: {cv_scores.mean():.3f} (±{cv_scores.std():.3f})")
            print(f"  训练时间: {training_time:.3f}秒")
        
        self.performance_metrics = results
        return results
    
    def plot_model_comparison(self):
        """绘制模型比较图"""
        if not self.performance_metrics:
            print("请先运行模型评估")
            return
        
        models = list(self.performance_metrics.keys())
        accuracies = [self.performance_metrics[m]['mean_accuracy'] for m in models]
        times = [self.performance_metrics[m]['training_time'] for m in models]
        
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))
        
        # 准确率比较
        bars = ax1.bar(models, accuracies, color='skyblue', alpha=0.7)
        ax1.set_title('模型准确率比较')
        ax1.set_ylabel('准确率')
        ax1.tick_params(axis='x', rotation=45)
        
        # 添加数值标签
        for bar in bars:
            height = bar.get_height()
            ax1.text(bar.get_x() + bar.get_width()/2., height,
                    f'{height:.3f}', ha='center', va='bottom')
        
        # 训练时间比较
        bars = ax2.bar(models, times, color='lightcoral', alpha=0.7)
        ax2.set_title('模型训练时间比较')
        ax2.set_ylabel('训练时间(秒)')
        ax2.tick_params(axis='x', rotation=45)
        
        plt.tight_layout()
        plt.show()
    
    def get_recommendation(self):
        """根据评估结果给出推荐"""
        if not self.performance_metrics:
            return "请先运行模型评估"
        
        # 综合考虑准确率和训练时间
        best_model = None
        best_score = -1
        
        for name, metrics in self.performance_metrics.items():
            # 综合评分：准确率 * 时间效率
            time_efficiency = 1 / (1 + metrics['training_time'])  # 时间越短效率越高
            score = metrics['mean_accuracy'] * time_efficiency
            
            if score > best_score:
                best_score = score
                best_model = name
        
        return {
            'recommended_model': best_model,
            'reasoning': f"在准确率和训练效率之间达到最佳平衡",
            'accuracy': self.performance_metrics[best_model]['mean_accuracy'],
            'training_time': self.performance_metrics[best_model]['training_time']
        }

# 模型选择示例
(X_class, y_class), (X_reg, y_reg) = create_demo_datasets()

selector = ModelSelector()
results = selector.evaluate_models(X_class, y_class)
selector.plot_model_comparison()
recommendation = selector.get_recommendation()

print(f"\n推荐模型: {recommendation['recommended_model']}")
print(f"理由: {recommendation['reasoning']}")
print(f"准确率: {recommendation['accuracy']:.3f}")

超参数优化技术

高级优化策略

from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from scipy.stats import randint, uniform
import joblib

class HyperparameterOptimizer:
    """超参数优化器"""
    
    def __init__(self):
        self.best_params = {}
        self.optimization_history = {}
    
    def grid_search_optimization(self, model, param_grid, X, y, cv=5):
        """网格搜索优化"""
        print("开始网格搜索...")
        
        grid_search = GridSearchCV(
            estimator=model,
            param_grid=param_grid,
            cv=cv,
            scoring='accuracy',
            n_jobs=-1,
            verbose=1
        )
        
        grid_search.fit(X, y)
        
        self.best_params['grid_search'] = grid_search.best_params_
        self.optimization_history['grid_search'] = grid_search.cv_results_
        
        print(f"最佳参数: {grid_search.best_params_}")
        print(f"最佳分数: {grid_search.best_score_:.3f}")
        
        return grid_search
    
    def random_search_optimization(self, model, param_distributions, X, y, n_iter=50, cv=5):
        """随机搜索优化"""
        print("开始随机搜索...")
        
        random_search = RandomizedSearchCV(
            estimator=model,
            param_distributions=param_distributions,
            n_iter=n_iter,
            cv=cv,
            scoring='accuracy',
            n_jobs=-1,
            random_state=42,
            verbose=1
        )
        
        random_search.fit(X, y)
        
        self.best_params['random_search'] = random_search.best_params_
        self.optimization_history['random_search'] = random_search.cv_results_
        
        print(f"最佳参数: {random_search.best_params_}")
        print(f"最佳分数: {random_search.best_score_:.3f}")
        
        return random_search
    
    def compare_optimization_methods(self):
        """比较优化方法"""
        if len(self.best_params) < 2:
            return "需要至少两种优化方法的结果进行比较"
        
        comparison = {}
        for method, params in self.best_params.items():
            best_score = max(self.optimization_history[method]['mean_test_score'])
            comparison[method] = {
                'best_params': params,
                'best_score': best_score,
                'n_candidates': len(self.optimization_history[method]['mean_test_score'])
            }
        
        return comparison

# 超参数优化示例
def demonstrate_hyperparameter_optimization():
    """演示超参数优化"""
    from sklearn.ensemble import RandomForestClassifier
    
    # 准备数据
    X, y = X_class, y_class
    
    # 定义参数空间
    rf_param_grid = {
        'n_estimators': [50, 100, 200],
        'max_depth': [None, 10, 20, 30],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4]
    }
    
    rf_param_dist = {
        'n_estimators': randint(50, 300),
        'max_depth': [None] + list(range(5, 50, 5)),
        'min_samples_split': randint(2, 20),
        'min_samples_leaf': randint(1, 10),
        'bootstrap': [True, False]
    }
    
    optimizer = HyperparameterOptimizer()
    
    # 网格搜索
    grid_result = optimizer.grid_search_optimization(
        RandomForestClassifier(random_state=42),
        rf_param_grid, X, y
    )
    
    # 随机搜索
    random_result = optimizer.random_search_optimization(
        RandomForestClassifier(random_state=42),
        rf_param_dist, X, y, n_iter=20
    )
    
    # 比较结果
    comparison = optimizer.compare_optimization_methods()
    
    print("\n优化方法比较:")
    for method, info in comparison.items():
        print(f"{method}:")
        print(f"  最佳分数: {info['best_score']:.3f}")
        print(f"  候选参数组合: {info['n_candidates']}")
    
    return optimizer

optimizer = demonstrate_hyperparameter_optimization()

模型评估与验证

综合评估框架

from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
from sklearn.metrics import precision_recall_curve, average_precision_score
from sklearn.calibration import calibration_curve

class ComprehensiveEvaluator:
    """综合模型评估器"""
    
    def __init__(self):
        self.metrics_history = {}
    
    def evaluate_classifier(self, model, X_test, y_test, model_name='Model'):
        """全面评估分类器"""
        # 预测结果
        y_pred = model.predict(X_test)
        y_pred_proba = model.predict_proba(X_test)[:, 1] if hasattr(model, 'predict_proba') else None
        
        # 基础指标
        accuracy = np.mean(y_pred == y_test)
        classification_rep = classification_report(y_test, y_pred, output_dict=True)
        
        # 高级指标
        metrics = {
            'accuracy': accuracy,
            'precision': classification_rep['weighted avg']['precision'],
            'recall': classification_rep['weighted avg']['recall'],
            'f1_score': classification_rep['weighted avg']['f1-score'],
        }
        
        if y_pred_proba is not None:
            metrics.update({
                'roc_auc': roc_auc_score(y_test, y_pred_proba),
                'average_precision': average_precision_score(y_test, y_pred_proba)
            })
        
        self.metrics_history[model_name] = metrics
        
        return metrics
    
    def plot_confusion_matrix(self, y_true, y_pred, model_name):
        """绘制混淆矩阵"""
        cm = confusion_matrix(y_true, y_pred)
        
        plt.figure(figsize=(8, 6))
        sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                   xticklabels=class_names, yticklabels=class_names)
        plt.title(f'{model_name} - 混淆矩阵')
        plt.ylabel('真实标签')
        plt.xlabel('预测标签')
        plt.show()
    
    def plot_roc_curves(self, models_dict, X_test, y_test):
        """绘制多个模型的ROC曲线"""
        plt.figure(figsize=(10, 8))
        
        for name, model in models_dict.items():
            if hasattr(model, 'predict_proba'):
                y_score = model.predict_proba(X_test)[:, 1]
                fpr, tpr, _ = roc_curve(y_test, y_score)
                roc_auc = auc(fpr, tpr)
                
                plt.plot(fpr, tpr, lw=2, label=f'{name} (AUC = {roc_auc:.3f})')
        
        plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', alpha=0.5)
        plt.xlim([0.0, 1.0])
        plt.ylim([0.0, 1.05])
        plt.xlabel('假正率')
        plt.ylabel('真正率')
        plt.title('ROC曲线比较')
        plt.legend(loc="lower right")
        plt.grid(alpha=0.3)
        plt.show()
    
    def generate_evaluation_report(self, models_dict, X_test, y_test):
        """生成评估报告"""
        report = {
            'timestamp': pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S'),
            'dataset_info': {
                'test_samples': len(X_test),
                'features': X_test.shape[1],
                'class_distribution': pd.Series(y_test).value_counts().to_dict()
            },
            'model_performance': {}
        }
        
        for name, model in models_dict.items():
            metrics = self.evaluate_classifier(model, X_test, y_test, name)
            report['model_performance'][name] = metrics
            
            # 绘制混淆矩阵
            y_pred = model.predict(X_test)
            self.plot_confusion_matrix(y_test, y_pred, name)
        
        # 绘制ROC曲线比较
        self.plot_roc_curves(models_dict, X_test, y_test)
        
        return report

# 模型评估示例
from sklearn.model_selection import train_test_split

# 准备训练测试数据
X_train, X_test, y_train, y_test = train_test_split(
    X_class, y_class, test_size=0.3, random_state=42
)

# 训练多个模型
models = {
    '随机森林': RandomForestClassifier(n_estimators=100, random_state=42),
    '逻辑回归': LogisticRegression(random_state=42),
    '梯度提升': GradientBoostingClassifier(n_estimators=100, random_state=42)
}

for name, model in models.items():
    model.fit(X_train, y_train)
    print(f"{name} 训练完成")

# 综合评估
evaluator = ComprehensiveEvaluator()
report = evaluator.generate_evaluation_report(models, X_test, y_test)

print("\n模型性能总结:")
for model_name, metrics in report['model_performance'].items():
    print(f"\n{model_name}:")
    for metric, value in metrics.items():
        print(f"  {metric}: {value:.3f}")

生产级机器学习流水线

端到端流水线构建

from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin
import joblib

class FeatureSelector(BaseEstimator, TransformerMixin):
    """自定义特征选择器"""
    
    def __init__(self, method='variance', threshold=0.01):
        self.method = method
        self.threshold = threshold
        self.selected_features = None
    
    def fit(self, X, y=None):
        if self.method == 'variance':
            from sklearn.feature_selection import VarianceThreshold
            selector = VarianceThreshold(threshold=self.threshold)
            selector.fit(X)
            self.selected_features = selector.get_support()
        return self
    
    def transform(self, X):
        if self.selected_features is not None:
            return X[:, self.selected_features]
        return X

class MLPipelineBuilder:
    """机器学习流水线构建器"""
    
    def __init__(self):
        self.pipeline = None
        self.feature_names = []
    
    def build_classification_pipeline(self, model, preprocessor=None):
        """构建分类流水线"""
        if preprocessor is None:
            preprocessor = SmartDataPreprocessor()
        
        self.pipeline = Pipeline([
            ('preprocessor', preprocessor.preprocessor),
            ('feature_selector', FeatureSelector()),
            ('classifier', model)
        ])
        
        return self.pipeline
    
    def train_and_evaluate(self, X_train, y_train, X_test, y_test, cv=5):
        """训练和评估流水线"""
        if self.pipeline is None:
            raise ValueError("请先构建流水线")
        
        # 训练模型
        self.pipeline.fit(X_train, y_train)
        
        # 评估性能
        train_score = self.pipeline.score(X_train, y_train)
        test_score = self.pipeline.score(X_test, y_test)
        
        # 交叉验证
        cv_scores = cross_val_score(self.pipeline, X_train, y_train, cv=cv)
        
        results = {
            'training_accuracy': train_score,
            'test_accuracy': test_score,
            'cross_val_mean': cv_scores.mean(),
            'cross_val_std': cv_scores.std()
        }
        
        print("流水线性能评估:")
        print(f"训练准确率: {train_score:.3f}")
        print(f"测试准确率: {test_score:.3f}")
        print(f"交叉验证: {cv_scores.mean():.3f} (±{cv_scores.std():.3f})")
        
        return results
    
    def save_pipeline(self, filepath):
        """保存流水线"""
        if self.pipeline is not None:
            joblib.dump(self.pipeline, filepath)
            print(f"流水线已保存至: {filepath}")
        else:
            print("没有可保存的流水线")
    
    def load_pipeline(self, filepath):
        """加载流水线"""
        self.pipeline = joblib.load(filepath)
        print(f"流水线已从 {filepath} 加载")
        return self.pipeline

# 创建端到端流水线示例
def build_complete_pipeline():
    """构建完整机器学习流水线"""
    # 准备数据
    X_train, X_test, y_train, y_test = train_test_split(
        X_class, y_class, test_size=0.3, random_state=42
    )
    
    # 构建流水线
    pipeline_builder = MLPipelineBuilder()
    
    # 使用优化后的随机森林
    best_rf = RandomForestClassifier(
        n_estimators=200,
        max_depth=20,
        min_samples_split=5,
        min_samples_leaf=2,
        random_state=42
    )
    
    pipeline = pipeline_builder.build_classification_pipeline(best_rf)
    
    # 训练和评估
    results = pipeline_builder.train_and_evaluate(X_train, y_train, X_test, y_test)
    
    # 保存流水线
    pipeline_builder.save_pipeline('best_classification_pipeline.pkl')
    
    return pipeline_builder, results

pipeline_builder, pipeline_results = build_complete_pipeline()

模型部署与监控

生产环境最佳实践

class ModelMonitor:
    """模型监控器"""
    
    def __init__(self, model, feature_names, target_name):
        self.model = model
        self.feature_names = feature_names
        self.target_name = target_name
        self.performance_history = []
        self.data_drift_detector = DataDriftDetector()
    
    def log_prediction(self, features, actual, predicted, prediction_time):
        """记录预测结果"""
        log_entry = {
            'timestamp': pd.Timestamp.now(),
            'features': features,
            'actual': actual,
            'predicted': predicted,
            'prediction_time': prediction_time,
            'correct': actual == predicted
        }
        
        self.performance_history.append(log_entry)
    
    def calculate_performance_metrics(self, window_size=100):
        """计算性能指标"""
        if len(self.performance_history) < window_size:
            return None
        
        recent_predictions = self.performance_history[-window_size:]
        
        accuracy = sum(1 for p in recent_predictions if p['correct']) / len(recent_predictions)
        avg_prediction_time = np.mean([p['prediction_time'] for p in recent_predictions])
        
        return {
            'accuracy': accuracy,
            'avg_prediction_time': avg_prediction_time,
            'sample_size': len(recent_predictions)
        }
    
    def check_data_drift(self, new_data, reference_data):
        """检查数据漂移"""
        return self.data_drift_detector.detect_drift(new_data, reference_data)
    
    def generate_monitoring_report(self):
        """生成监控报告"""
        performance = self.calculate_performance_metrics()
        
        if performance is None:
            return "数据不足，无法生成报告"
        
        report = {
            'report_time': pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S'),
            'performance_metrics': performance,
            'total_predictions': len(self.performance_history),
            'recent_accuracy_trend': self.calculate_accuracy_trend()
        }
        
        return report
    
    def calculate_accuracy_trend(self, n_windows=5):
        """计算准确率趋势"""
        if len(self.performance_history) < 100:
            return "数据不足"
        
        window_size = len(self.performance_history) // n_windows
        accuracies = []
        
        for i in range(n_windows):
            start_idx = i * window_size
            end_idx = start_idx + window_size
            window_data = self.performance_history[start_idx:end_idx]
            
            if window_data:
                accuracy = sum(1 for p in window_data if p['correct']) / len(window_data)
                accuracies.append(accuracy)
        
        return {
            'accuracies': accuracies,
            'trend': '上升' if accuracies[-1] > accuracies[0] else '下降' if accuracies[-1] < accuracies[0] else '稳定'
        }

class DataDriftDetector:
    """数据漂移检测器"""
    
    def detect_drift(self, new_data, reference_data, threshold=0.05):
        """检测数据漂移"""
        from scipy.stats import ks_2samp
        
        drift_report = {}
        
        for col in new_data.columns:
            if col in reference_data.columns:
                stat, p_value = ks_2samp(reference_data[col], new_data[col])
                drift_report[col] = {
                    'ks_statistic': stat,
                    'p_value': p_value,
                    'drift_detected': p_value < threshold
                }
        
        return drift_report

# 模型部署示例
class ModelServer:
    """简易模型服务器"""
    
    def __init__(self, model_path):
        self.model = joblib.load(model_path)
        self.monitor = ModelMonitor(self.model, feature_names, 'target')
        self.request_count = 0
    
    def predict(self, input_data):
        """预测接口"""
        import time
        
        start_time = time.time()
        
        try:
            # 数据预处理
            if isinstance(input_data, dict):
                input_df = pd.DataFrame([input_data])
            else:
                input_df = input_data
            
            # 预测
            prediction = self.model.predict(input_df)[0]
            prediction_proba = self.model.predict_proba(input_df)[0] if hasattr(self.model, 'predict_proba') else None
            
            prediction_time = time.time() - start_time
            
            # 记录预测（在实际应用中，这里会有真实的actual值）
            self.monitor.log_prediction(
                input_data, 
                actual=None,  # 生产环境中需要真实标签
                predicted=prediction,
                prediction_time=prediction_time
            )
            
            self.request_count += 1
            
            response = {
                'prediction': int(prediction),
                'prediction_probability': prediction_proba.tolist() if prediction_proba is not None else None,
                'prediction_time': prediction_time,
                'request_id': self.request_count
            }
            
            return response
            
        except Exception as e:
            return {'error': str(e)}
    
    def get_monitoring_report(self):
        """获取监控报告"""
        return self.monitor.generate_monitoring_report()

# 创建模型服务器实例
model_server = ModelServer('best_classification_pipeline.pkl')

# 模拟预测请求
sample_input = {
    'feature_0': 0.5, 'feature_1': -0.2, 'feature_2': 1.1,
    'feature_3': -0.8, 'feature_4': 0.3, 'feature_5': -1.2
}

prediction_result = model_server.predict(sample_input)
print("预测结果:", prediction_result)

# 获取监控报告
monitoring_report = model_server.get_monitoring_report()
print("\n监控报告:", monitoring_report)

总结与最佳实践

关键成功因素

维度	最佳实践	常见陷阱	改进策略
数据质量	彻底的EDA和数据验证	忽视数据质量问题	建立数据质量检查表
特征工程	基于领域知识的特征创建	盲目使用所有特征	特征重要性分析和选择
模型选择	多模型比较和基准测试	过早优化复杂模型	从简单模型开始迭代
验证策略	严格的交叉验证	数据泄露和过拟合	坚持训练-验证-测试分离
生产部署	完整的监控和回滚机制	忽视模型性能衰减	建立模型性能监控体系