sklearn.utils.class_weight 样本均衡

最新推荐文章于 2025-06-25 12:29:03 发布

原创最新推荐文章于 2025-06-25 12:29:03 发布 · 3.8k 阅读

8 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

当我们的数据，有多个类别，每个类别的数据量有很大差距时，这是我们需要对每个类别的样本做一次均衡，这样会让每个类别的特征都在一定程度上被模型学习，下面给出一个简单的小例子，如下：

from sklearn.utils.class_weight import compute_class_weight
import numpy as np

def class_balance():

    class_weight = 'balanced'
    list_sample_number = np.array([9, 1, 2])
    label = [2] * list_sample_number[0] + [6] * list_sample_number[1] + [4] * list_sample_number[2]
    print(label)
    classes = [2, 6, 4]

    # 样本均衡后的权重
    weight = compute_class_weight(class_weight, classes, label)
    print('weight = ', weight, 'type=', type(weight))   # [0.44444444 4.         2.        ]

    # 样本均衡后，把每个类别的权重与当前类别下样本数相乘
    weight_result = np.multiply(weight, list_sample_number)
    print('weight_result=', weight_result)   # [4. 4. 4.]

    # 可以看到三种类别的样本，被均衡后的个数都为4

    return

class_balance()