代价敏感学习是一种针对数据不均衡问题的机器学习方法,它通过给不同类别的样本赋予不同的代价或权重,以便更好地处理数据不均衡情况。代价敏感学习方法可以在模型训练过程中考虑到不同类别样本的重要性,从而提高模型对少数类样本的识别能力。
一、代价敏感支持向量机,决策树,逻辑回归,随机森林
sklearn库中支持向量机、决策树、逻辑回归和随机森林等函数有相应的代价敏感参数设置,或者也可人为根据数据比例设置权重矩阵。
# 生成不均衡数据集
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
X, y = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10,
random_state=42) # 生成一个分类问题的数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 划分训练集和测试集
from numpy import mean