【机器学习与大模型解惑】多数据类型中类别不平衡问题的处理方法及代码分析

最新推荐文章于 2025-06-09 23:15:15 发布

原创最新推荐文章于 2025-06-09 23:15:15 发布 · 1.1k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #人工智能 #大模型 #python #平衡训练集

哈佛博后带你玩转机器学习同时被 3 个专栏收录

806 篇文章

订阅专栏

大模型技术开发与实践

801 篇文章

订阅专栏

深度学习

726 篇文章

订阅专栏

多数据类型中类别不平衡问题的处理方法及代码分析

引言
结构化数值数据（表格）——SMOTE过采样
文本数据——数据增强（回译）
时序数据——代价敏感学习（类别权重）
图像数据——Focal Loss聚焦损失
图结构数据——GraphSMOTE图过采样
音频数据——频谱图增强（SpecAugment）
结论与总结

引言

类别不平衡（Class Imbalance）问题在机器学习与深度学习任务中普遍存在，特别是在真实世界的应用场景中，例如医疗诊断（阳性病例远少于阴性）、金融欺诈检测（正常交易远多于欺诈行为）等。

这种不平衡会导致模型训练偏向多数类别，从而在少数类别（即目标类别）上的表现严重下降。因此，研究和采用合适的方法解决类别不平衡问题，是提升模型泛化能力和公平性的重要环节。

处理类别不平衡问题的策略大致可分为两类：

数据层方法（Data-Level Methods）：调整训练数据的分布，如过采样（Oversampling）或欠采样（Undersampling）。典型方法如SMOTE、数据增强等。
算法层方法（Algorithm-Level Methods）：调整学习过程对少数类样本的关注度，如代价敏感学习（Cost-sensitive learning）、Focal Loss等。

本文将针对不同类型的数据：结构化数值数据、文本、时序数据、图像、图结构数据、音频数据，逐一给出各类最佳处理方法的介绍、代码实现、优势与不足分析、可扩展优化策略和未来研究方向。

2. 结构化数值数据（表格）——SMOTE过采样

2.1 原理与适用场景

SMOTE（Synthetic Minority Over-sampling Technique）是一种在连续型特征空间中插值生成新的少数类样本的方法。它通过在少数类样本与其近邻之间进行线性插值得到新的样本点，避免了简单复制带来的过拟合问题。

适用于数值型特征为主的分类任务，如信用风险评估、欺诈检测、客户流失预测等。

2.2 代码示例（scikit-learn + imbalanced-learn）

from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier
from imblearn.over_sampling import SMOTE
from collections import Counter

X, y = make_classification(n_samples=1000, n_features=5, weights=[0.9, 0.1], random_state=42)
print(Counter(y))

smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(X, y)
print(Counter(y_res))

clf = RandomForestClassifier()
clf.fit(X_res, y_res)

2.3 优势与劣势

优势：

有效缓解类别不均衡引发的偏置
不易过拟合（相较于简单复制）
实现简便，适用于多数结构化数据

劣势：

不适用于类别重叠严重或特征不连续的情况
在高维空间中插值可能生成不合理样本
对异常值敏感

2.4 优化方向

使用 Borderline-SMOTE、ADASYN 等变体
与欠采样或集成方法（如EasyEnsemble）结合
尝试基于GAN的表格数据生成（如CTGAN）

2.5 未来研究方向

SMOTE与AutoML流程融合
引入差分隐私等隐私保护机制
面向Transformer类结构化预训练模型的平衡策略

3. 文本数据——数据增强（回译）

3.1 原理与适用场景

回译（Back-Translation）是指将一句话翻译成另一种语言，再翻译回原语言，从而生成语义保持、表述方式变化的文本样本。

适用于文本分类（情感分析、新闻分类、意图识别等），特别是当少数类样本较少时。

3.2 代码示例（Transformers）

from transformers import pipeline

en2fr = pipeline("translation_en_to_fr", model="Helsinki-NLP/opus-mt-en-fr")
fr2en = pipeline("translation_fr_to_en", model="Helsinki-NLP/opus-mt-fr-en")

text = "The cinematography of the film was absolutely wonderful."
fr = en2fr(text)[0]['translation_text']
back = fr2en(fr)[0]['translation_text']

print("原文:", text)
print("增强:", back)

3.3 优势与劣势

优势：

保留原标签语义，确保分类一致性
增强少数类表达多样性，提高模型泛化
可结合多语言或大语言模型进一步增强

劣势：

存在语义漂移风险（特别是否定句）
翻译质量受限于模型精度和语言资源
计算开销较大，适用规模需评估

3.4 优化方向

使用Paraphrase模型（如T5、BART）代替回译
引入语义一致性检验模型
基于大语言模型（如GPT）生成样本并自动验证标签

3.5 未来研究方向

Prompt提示式平衡学习（Few-shot + Prompt）
数据增强与增量学习联合
用LLM动态生成样本并引入反馈机制

4. 时序数据——代价敏感学习（类别权重）

4.1 原理与适用场景

时序数据中直接复制或切片序列可能破坏时间依赖性。相比之下，代价敏感学习方法（如加权损失函数）可不改变原始数据结构，通过对少数类样本赋予更高的损失权重，引导模型重视其预测准确性。

适用于异常检测、设备故障预测、生理信号分类等。

4.2 代码示例（PyTorch）

import torch
import torch.nn as nn

weights = torch.tensor([1.0, 10.0])
loss_fn = nn.CrossEntropyLoss(weight=weights)

outputs = model(inputs)
loss = loss_fn(outputs, targets)

4.3 优势与劣势

优势：

简洁易用，适配所有时序模型
不扰动原始时间结构
可配合滑窗分段、多类任务适配

劣势：

权重敏感，需调试
对样本不足问题无根本解决
噪声样本的影响被放大

4.4 优化方向

配合时序切片增强、滑窗采样等
使用时间序列生成模型（如TimeGAN）
融合动态Focal Loss

4.5 未来研究方向

结合预训练模型进行少样本微调
开发时间感知的动态损失机制
在线学习中的少数类识别机制

5. 图像数据——Focal Loss聚焦损失

5.1 原理与适用场景

Focal Loss 是对标准交叉熵的改进，引入聚焦因子 $(1 - p_t)^\gamma$ 抑制容易分类的样本，让模型更加关注少数类和难以分类的样本。

适用于长尾图像分类、医学图像分析、小目标检测等任务。

5.2 代码示例（PyTorch）

import torch
import torch.nn as nn
import torch.nn.functional as F

class FocalLoss(nn.Module):
    def __init__(self, alpha=1, gamma=2):
        super(FocalLoss, self).__init__()
        self.alpha = alpha
        self.gamma = gamma

    def forward(self, inputs, targets):
        ce_loss = F.cross_entropy(inputs, targets, reduction='none')
        pt = torch.exp(-ce_loss)
        loss = self.alpha * (1 - pt) ** self.gamma * ce_loss
        return loss.mean()

5.3 优势与劣势

优势：

专注于难样本与少数类
可与任意模型结构配合使用
适合极端不平衡问题

劣势：

γ 和 α 需调优
容易放大异常点的影响
不生成新数据，效果受限于原始样本多样性

5.4 优化方向

结合类别平衡损失（Class-Balanced Loss）
两阶段训练策略：冻结特征，重训练分类器
Mixup 数据增强联合

5.5 未来研究方向

与预训练视觉模型联合优化不平衡分类
元学习调节样本/类别权重
长尾视觉数据自动增强策略设计

好的，这里是接续的完整内容，包括第6章图结构数据、第7章音频数据，以及第8章结论与总结。

6. 图结构数据——GraphSMOTE图过采样

6.1 原理与适用场景

GraphSMOTE 是一种将 SMOTE 思想扩展到图结构数据中的方法，适用于节点分类任务中的类别不平衡问题。它首先在图神经网络（GNN）的嵌入空间中生成新的少数类节点嵌入，然后通过边预测模型连接这些新节点，从而在保持图结构一致性的前提下扩展少数类。

适用于社交网络、引文网络、金融反欺诈图等任务中存在类别严重不平衡的节点分类问题。

6.2 实现思路

使用 GNN 获取节点嵌入向量
对嵌入空间中的少数类节点应用 SMOTE 插值生成新节点
使用边连接预测模型为新节点分配邻居节点
将合成节点和边加入原图并重新训练 GNN

6.3 优势与劣势

优势：

保留图结构上下文，适配 GNN 聚合特性
在嵌入空间插值，避免原始特征空间干扰
明显提升少数类节点表示能力与分类性能

劣势：

实现复杂，需训练嵌入提取与边预测模型
初始 GNN 受不平衡影响，可能影响嵌入质量
若边预测不准，可能导致图结构异常

6.4 优化方向

与无监督图嵌入模型（如 node2vec）结合生成稳定嵌入
引入图对比学习或自监督目标提升嵌入质量
动态生成节点并结合边概率调整图谱结构

6.5 未来研究方向

支持动态图结构的不平衡采样方法
图分类任务中的图结构合成与增强机制
GNN 中集成学习与类别敏感信息传播框架

7. 音频数据——频谱图增强（SpecAugment）

7.1 原理与适用场景

SpecAugment 是在语音识别领域提出的一种频谱图级别数据增强方法，通过时间遮蔽、频率遮蔽和时间扭曲等方式在时频图上构造新的样本，有效提升少样本鲁棒性与泛化能力。

适用于语音命令识别、环境声音分类、异常音检测等类别不平衡的音频分类场景。

7.2 代码示例（Librosa + 可视化）

import librosa
import numpy as np
import matplotlib.pyplot as plt
import librosa.display

# 加载音频样本
y, sr = librosa.load("minority_sample.wav")

# 转换为 Mel 频谱图
S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
S_dB = librosa.power_to_db(S, ref=np.max)

# 应用频率遮蔽
S_dB_aug = S_dB.copy()
S_dB_aug[30:50, :] = -80

# 应用时间遮蔽
S_dB_aug[:, 40:60] = -80

# 可视化
plt.figure(figsize=(10, 4))
librosa.display.specshow(S_dB_aug, sr=sr, x_axis='time', y_axis='mel')
plt.title('Augmented Spectrogram')
plt.colorbar(format='%+2.0f dB')
plt.tight_layout()
plt.show()