数据科学家必备：sktime时间序列分析全攻略-优快云博客

数据科学家必备：sktime时间序列分析全攻略

【免费下载链接】sktime sktime是一个用于机器学习中时间序列预测和分析的Python库，提供了丰富的数据预处理、特征提取和模型评估方法，适用于金融、气象等领域的数据分析。项目地址: https://gitcode.com/GitHub_Trending/sk/sktime

你还在为时间序列分析头疼吗？从预测到异常检测，一文掌握sktime核心技能

时间序列数据无处不在——金融市场波动、气象监测、用户行为轨迹，甚至工业传感器 readings。但传统分析工具往往陷入三大困境：预测精度不足、算法兼容性差、预处理流程繁琐。作为数据科学家，你是否也曾：

为ARIMA与LSTM的结果不一致而困惑？
在特征工程中重复编写滑动窗口代码？
面对异常检测与分类任务切换时重构整个 pipeline？

读完本文你将获得：

5分钟上手的sktime核心API操作指南
预测/分类/异常检测三大任务的端到端解决方案
10+实战代码模板（含金融/气象行业案例）
模型优化的7个关键技巧（附参数调优 cheat sheet）
工业级时间序列项目架构设计图

为什么选择sktime？

时间序列分析领域长期存在"算法碎片化"问题：统计模型（ARIMA）、机器学习（随机森林）、深度学习（LSTM）各自为战。sktime作为Python生态中首个统一时间序列学习接口的库，通过三大创新解决这一痛点：

mermaid

核心优势对比

特性	sktime	传统工具链
接口一致性	所有算法统一fit/predict	每个库独立API（statsmodels/prophet/tsfresh）
任务覆盖	预测/分类/聚类/异常检测	单一任务（如fbprophet仅预测）
算法生态	50+原生算法+第三方集成	需手动集成不同库
性能优化	内置并行计算/缓存机制	需手动实现优化
可扩展性	自定义算法模板	从零构建接口适配

快速入门：安装与基础概念

安装sktime

# 基础安装
pip install sktime

# 全功能安装（含深度学习依赖）
pip install sktime[all_extras]

# 国内用户建议使用清华源
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple sktime[all_extras]

数据格式规范

sktime采用pandas DataFrame/Series作为标准数据容器，时间索引使用pandas DatetimeIndex：

import pandas as pd
from sktime.datasets import load_airline

# 加载示例数据（航空乘客数据集）
y = load_airline()
print(y.head())
# 1949-01    112
# 1949-02    118
# 1949-03    132
# 1949-04    129
# 1949-05    121
# Freq: M, Name: Number of airline passengers, dtype: int64

多变量时间序列使用DataFrame，每行代表一个时间点，每列代表一个变量：

from sktime.datasets import load_basic_motions

X, y = load_basic_motions(return_type="pd-multiindex")
X.head()
#                      accel_1    accel_2    accel_3    gyro_1    gyro_2    gyro_3
# trial_no timepoint                                                             
# 0        0           0.079106   0.394032   0.551444   0.351565   0.023970   0.633883
#          1           0.079106   0.394032   0.551444   0.351565   0.023970   0.633883

核心功能实战

1. 时间序列预测：从基础到高级

基础预测工作流

sktime的预测API设计遵循"预测范围（ForecastingHorizon）"概念，完美支持单步/多步预测：

from sktime.forecasting.base import ForecastingHorizon
from sktime.forecasting.theta import ThetaForecaster
from sktime.split import temporal_train_test_split
from sktime.performance_metrics.forecasting import mean_absolute_percentage_error

# 数据拆分
y = load_airline()
y_train, y_test = temporal_train_test_split(y, test_size=36)

# 定义预测范围
fh = ForecastingHorizon(y_test.index, is_relative=False)

# 初始化并训练模型
forecaster = ThetaForecaster(sp=12)  # 月度季节性周期
forecaster.fit(y_train)

# 预测与评估
y_pred = forecaster.predict(fh)
mape = mean_absolute_percentage_error(y_test, y_pred)
print(f"MAPE: {mape:.4f}")  # 输出: MAPE: 0.0866

高级预测策略：组合模型与置信区间

from sktime.forecasting.compose import EnsembleForecaster
from sktime.forecasting.arima import ARIMA
from sktime.forecasting.exp_smoothing import ExponentialSmoothing

# 集成多个模型
forecaster = EnsembleForecaster(
    [
        ("arima", ARIMA(order=(1,1,1), seasonal_order=(0,1,1,12))),
        ("theta", ThetaForecaster(sp=12)),
        ("ets", ExponentialSmoothing(trend="add", seasonal="add", sp=12)),
    ]
)

forecaster.fit(y_train)
y_pred = forecaster.predict(fh)

# 概率预测（获取置信区间）
y_pred_int = forecaster.predict_interval(fh, coverage=0.95)

2. 时间序列分类：超越传统机器学习

时间序列分类与传统分类的核心区别在于：每个样本是一个序列而非特征向量。sktime提供20+专用算法，这里以性能优异的TimeSeriesForest为例：

from sktime.classification.interval_based import TimeSeriesForestClassifier
from sktime.datasets import load_arrow_head
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
X, y = load_arrow_head(return_type="numpy3D")  # (样本数, 变量数, 时间步数)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# 训练TSF分类器
classifier = TimeSeriesForestClassifier(n_estimators=100, random_state=42)
classifier.fit(X_train, y_train)

# 预测与评估
y_pred = classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.4f}")  # 输出: 准确率: 0.8679

3. 异常检测：从点异常到趋势变化

from sktime.detection.outlier import HampelFilter
import matplotlib.pyplot as plt

# 生成含异常值的时间序列
np.random.seed(42)
data = pd.Series(np.random.normal(0, 1, 1000), index=pd.date_range("2023-01-01", periods=1000))
data.iloc[100] = 8  # 添加异常点
data.iloc[500] = -7

# 异常检测
detector = HampelFilter(window_length=50, n_sigma=3)
anomalies = detector.fit_predict(data)

# 可视化结果
fig, ax = plt.subplots(figsize=(12, 4))
data.plot(ax=ax, label="原始数据")
data[anomalies == 1].plot(ax=ax, style="ro", label="异常点")
ax.legend()
plt.show()

4. 特征工程：专为时间序列设计的转换工具

from sktime.transformations.series.date import DateTimeFeatures
from sktime.transformations.series.boxcox import BoxCoxTransformer
from sktime.pipeline import Pipeline

# 构建预处理管道
pipe = Pipeline([
    ("boxcox", BoxCoxTransformer()),  # 幂变换
    ("datetime", DateTimeFeatures(ts_freq="M")),  # 提取时间特征
])

y_transformed = pipe.fit_transform(y_train)
print(y_transformed.head())

工业级项目实战：能源需求预测系统

项目架构设计

mermaid

关键代码实现：多变量预测与超参数优化

from sktime.forecasting.model_selection import ForecastingGridSearchCV
from sktime.forecasting.xgboost import XGBForecaster
from sktime.transformations.compose import ColumnTransformer
from sktime.transformations.series.lag import Lag
from sktime.transformations.series.impute import Imputer

# 特征工程管道
transformer = ColumnTransformer(
    transformers=[
        ("lag", Lag(lags=[1, 2, 12]), ["value"]),
        ("impute", Imputer(strategy="mean"), ["temperature"]),
    ]
)

# 定义参数网格
param_grid = {
    "forecaster__n_estimators": [100, 200],
    "forecaster__max_depth": [3, 5, 7],
}

# 构建完整管道
pipe = Pipeline([
    ("transform", transformer),
    ("forecaster", XGBForecaster(objective="reg:squarederror")),
])

# 网格搜索
gscv = ForecastingGridSearchCV(
    pipe,
    param_grid,
    cv=3,
    scoring="neg_mean_absolute_percentage_error",
)

gscv.fit(y_train, fh=fh)
print(f"最佳参数: {gscv.best_params_}")
print(f"最佳交叉验证分数: {-gscv.best_score_:.4f}")

性能优化与最佳实践

算法选择决策树

mermaid

常见陷阱与解决方案

问题	解决方案	代码示例
数据非平稳性	差分变换/Box-Cox变换	`Differencer(lags=1).fit_transform(y)`
缺失值处理	时间序列专用插补	`Imputer(strategy="time", method="linear")`
过拟合	交叉验证+正则化	`ForecastingGridSearchCV(cv=5)`
多季节性	多尺度分解	`STLTransformer(sp=12, seasonal=7)`

总结与进阶路线

通过本文，你已掌握sktime的核心功能：从单变量预测到多变量分类，从特征工程到模型部署。但时间序列分析是持续进化的领域，建议进阶学习路径：

基础巩固：深入理解时间序列的平稳性、周期性与自相关性
算法深化：研究复杂模型如N-BEATS、Temporal Fusion Transformer
工程实践：学习模型版本控制、A/B测试与监控体系构建

立即行动：克隆sktime仓库，运行examples目录下的01_forecasting.ipynb，动手实现你的第一个时间序列预测系统！

git clone https://gitcode.com/GitHub_Trending/sk/sktime
cd sktime/examples
jupyter notebook 01_forecasting.ipynb

下期预告：《时间序列异常检测实战：从金融欺诈到工业故障预警》—— 深入解析sktime的异常检测模块，结合PyOD与孤立森林算法，构建端到端异常监控系统。

附录：sktime常用API速查表

模块	核心类/函数	用途
forecasting	ThetaForecaster, ARIMA	时间序列预测
classification	TimeSeriesForestClassifier	时间序列分类
transformations	Lag, STLTransformer	特征工程
model_selection	ForecastingGridSearchCV	超参数优化
performance_metrics	mean_absolute_percentage_error	模型评估

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考