一文搞定时间序列分类：从入门到实战的sktime全攻略-优快云博客

一文搞定时间序列分类：从入门到实战的sktime全攻略

【免费下载链接】sktime A unified framework for machine learning with time series 项目地址: https://gitcode.com/gh_mirrors/skt/sktime

你是否还在为传感器数据分类头疼？是否因股价波动预测不准而困扰？时间序列分类（Time Series Classification, TSC）作为机器学习领域的重要分支，正广泛应用于工业监测、医疗诊断、金融分析等领域。本文将带你零基础掌握sktime框架下的时间序列分类技术，通过实战案例演示如何用5行代码解决90%的TSC问题。

读完本文你将获得：

4种主流时间序列分类算法的核心原理
完整的sktime环境搭建与数据加载流程
单变量/多变量时间序列分类的实战代码
不同算法的性能对比与参数调优指南

时间序列分类入门：从原理到框架

时间序列数据与传统表格数据的最大区别在于其时间依赖性，这使得常规的机器学习算法难以直接应用。sktime（A unified framework for machine learning with time series）作为专门处理时间序列数据的Python框架，提供了统一的API接口和丰富的算法库，完美兼容scikit-learn生态系统。

时间序列分类流程图

核心挑战与解决方案

挑战	解决方案	对应sktime模块
时间依赖性	滑动窗口特征提取	sktime/transformations/series/
高维稀疏性	字典学习与符号化	sktime/classification/dictionary_based/
多变量协同	多通道特征融合	sktime/classification/hybrid/
长序列处理	区间分割策略	sktime/classification/interval_based/

sktime的分类算法主要分为五大类：基于距离、基于字典、基于区间、基于深度学习和集成方法。其中字典类算法因兼具效率与性能，成为中小规模数据集的首选方案。

实战准备：环境搭建与数据加载

快速安装sktime

pip install sktime  # 基础安装
# 如需深度学习功能
pip install sktime[dl]
# 如需完整功能
pip install sktime[all_extras]

数据集介绍

本文使用两个经典时间序列数据集：

ItalyPowerDemand：单变量电力需求数据集，包含67个训练样本和50个测试样本，每个序列长度为24
BasicMotions：多变量人体运动数据集，包含40个样本（20训练+20测试），6个特征通道

from sktime.datasets import load_italy_power_demand, load_basic_motions

# 加载单变量数据
X_train, y_train = load_italy_power_demand(split="train", return_X_y=True)
X_test, y_test = load_italy_power_demand(split="test", return_X_y=True)

# 加载多变量数据
X_train_mv, y_train_mv = load_basic_motions(split="train", return_X_y=True)
X_test_mv, y_test_mv = load_basic_motions(split="test", return_X_y=True)

数据格式说明：sktime使用pandas DataFrame存储时间序列，每个单元格包含一个pandas Series对象，这种"嵌套DataFrame"结构同时支持单变量和多变量数据。

四大核心算法实战

1. BOSS：符号化傅里叶近似集成

Bag of SFA Symbols (BOSS)算法通过符号化傅里叶近似(SFA) 将时间序列转换为符号序列，再构建词袋模型进行分类。其核心思想是将连续数据离散化，保留关键频率特征。

from sktime.classification.dictionary_based import BOSSEnsemble
from sklearn import metrics

# 初始化模型
boss = BOSSEnsemble(random_state=47)
# 训练模型
boss.fit(X_train, y_train)
# 预测与评估
boss_preds = boss.predict(X_test)
print("BOSS Accuracy: " + str(metrics.accuracy_score(y_test, boss_preds)))

算法特点：

优点：对噪声鲁棒，训练速度快
缺点：对长序列内存消耗大
适用场景：工业传感器数据、电力负荷预测

实现细节见sktime/classification/dictionary_based/_boss.py

2. cBOSS：可收缩BOSS算法

Contractable BOSS是BOSS的改进版，通过随机参数采样和指数加权集成显著提升效率，同时保持精度。

from sktime.classification.dictionary_based import ContractableBOSS

# 推荐参数配置
cboss = ContractableBOSS(
    n_parameter_samples=250,  # 参数采样数量
    max_ensemble_size=50,    # 最大集成规模
    random_state=47
)
cboss.fit(X_train, y_train)
cboss_preds = cboss.predict(X_test)
print("cBOSS Accuracy: " + str(metrics.accuracy_score(y_test, cboss_preds)))

关键优化：

参数随机采样替代网格搜索
70%数据子集训练基分类器
指数加权投票机制

时间限制功能：当数据量大时，可通过time_limit_in_minutes参数控制训练时间：

cboss = ContractableBOSS(time_limit_in_minutes=1, random_state=47)  # 1分钟训练限制

3. WEASEL：词提取时间序列分类器

Word Extraction for Time Series Classification (WEASEL)引入二元特征和ANOVA特征选择，能生成更具判别力的特征集。其多变量扩展MUSE支持多通道数据分类。

# 单变量WEASEL
from sktime.classification.dictionary_based import WEASEL

weasel = WEASEL(
    binning_strategy="equi-depth",  # 分箱策略
    anova=False,                    # 是否使用ANOVA筛选
    random_state=47
)
weasel.fit(X_train, y_train)
print("WEASEL Accuracy: " + str(weasel.score(X_test, y_test)))

# 多变量MUSE
from sktime.classification.dictionary_based import MUSE

muse = MUSE()
muse.fit(X_train_mv, y_train_mv)
print("MUSE Accuracy: " + str(muse.score(X_test_mv, y_test_mv)))

MUSE在BasicMotions数据集上轻松达到100%准确率，展示了其处理多变量时间序列的强大能力。算法实现见sktime/classification/dictionary_based/_muse.py

4. TDE： temporal Dictionary Ensemble

Temporal Dictionary Ensemble融合了BOSS、cBOSS和WEASEL的优点，引入空间金字塔和高斯过程参数优化，在UCR数据集上多次刷新性能记录。

from sktime.classification.dictionary_based import TemporalDictionaryEnsemble

tde = TemporalDictionaryEnsemble(
    n_parameter_samples=50,
    max_ensemble_size=50,
    randomly_selected_params=50,
    random_state=47
)
tde.fit(X_train, y_train)
print("TDE Accuracy: " + str(tde.score(X_test, y_test)))

创新点：

空间金字塔结构捕捉多尺度特征
高斯过程回归预测参数性能
结合IGB和MCB两种分箱策略

算法性能对比与选型指南

在ItalyPowerDemand数据集上的性能对比：

算法	准确率	训练时间	内存占用
BOSS	0.94	12.3s	中
cBOSS	0.96	4.7s	低
WEASEL	0.96	3.2s	低
TDE	1.0	24.8s	高

选型建议：

快速原型：优先选择WEASEL，平衡速度与精度
大数据集：使用cBOSS并设置时间限制
高精度要求：TDE或HIVE-COTE集成算法
多变量数据：MUSE或HC2
实时场景：时间序列近邻分类器(KNN)

完整对比实验可参考examples/classification/dictionary_based_classification.ipynb

高级技巧：参数调优与可视化

关键参数调优

以WEASEL为例，影响性能的核心参数包括：

weasel = WEASEL(
    window_inc=2,             # 窗口增量
    alphabet_size=4,          # 符号表大小
    p_threshold=0.05,         # 特征选择阈值
    feature_selection="chi2"  # 特征选择方法
)

通过sktime的GridSearchCV进行参数优化：

from sklearn.model_selection import GridSearchCV

param_grid = {
    "alphabet_size": [2, 4, 8],
    "window_inc": [1, 2, 4]
}
gscv = GridSearchCV(WEASEL(), param_grid, cv=3, scoring="accuracy")
gscv.fit(X_train, y_train)
print("Best params:", gscv.best_params_)

分类结果可视化

import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

y_pred = tde.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap=plt.cm.Blues)
plt.title("TDE Confusion Matrix")
plt.savefig("tde_cm.png")

总结与扩展阅读

本文介绍了sktime框架下四种主流的时间序列分类算法，从原理到实战展示了如何解决单变量和多变量时间序列分类问题。sktime的统一API设计使得算法切换和参数调优变得异常简单，极大降低了时间序列机器学习的门槛。

进阶学习资源：

官方文档：ESTIMATOR_OVERVIEW.md
算法实现：sktime/classification/
更多案例：examples/classification/
学术论文：Schäfer et al., 2017 (WEASEL原理论文)

下期预告：

下一篇文章将深入探讨时间序列分类的前沿技术，包括：

基于深度学习的时间序列分类
长时序分类的区间分割策略
时间序列分类器的解释性方法

如果本文对你有帮助，请点赞收藏关注三连，你的支持是我们持续创作的动力！

【免费下载链接】sktime A unified framework for machine learning with time series 项目地址: https://gitcode.com/gh_mirrors/skt/sktime

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考