classification_report指标详解

sklearn的classification_report详解
precision、recall 、f1-score这三个基本就不介绍了,主要介绍平均的一些指标micro avg、macro avg、weighted avg、samples avg、accuracy

单分类

accuracy:正确率,分类正确样本数/总样本数
macro avg:用每一个类别对应的precision、recall、f1-score直接平均
weighted avg:用每一类别个数的权重乘对应类别指标

例子

from sklearn.metrics import classification_report
print(classification_report([3,3,3,1], [1,3,1,2], target_names=['a', 'b', 'c']))
              precision    recall  f1-score   support

           a       0.00      0.00      0.00         1
           b       0.00      0.00      0.00         0
           c       1.00      0.33      0.50         3

    accuracy                           0.25         4
   macro avg       0.33      0.11      0.17         4
weighted avg       0.75      0.25      0.38         4

多分类

多分类中增加了两个指标micro avg、samples avg是针对样本计算的,其他指标是针对标签计算的

micro avg:针对样本,对每一个样本所有类别的TP加起来除以所有类别(TP+FP)
macro avg: 用每一个类别对应的precision、recall、f1-score直接平均
weighted avg:用每一类别个数的权重乘对应类别指标
samples avg:针对样本,首先对每一个样本计算precision、recall指标然后对样本进行平均

例子

from sklearn.metrics import classification_report
y_true = np.array([[1, 0, 1, 0, 0],
                   [0, 1, 0, 1, 1],
                   [1, 1, 1, 0, 1]])
y_pred = np.array([[1, 0, 0, 0, 1],
                   [0, 1, 1, 1, 0],
                   [1, 1, 1, 0, 0]])
print(classification_report(y_true, y_pred))
              precision    recall  f1-score   support  precision计算方式(自加)

           0       1.00      1.00      1.00         2    2/2
           1       1.00      1.00      1.00         2    2/2
           2       0.50      0.50      0.50         2    1/2
           3       1.00      1.00      1.00         1    1/1
           4       0.00      0.00      0.00         2    0/1

   micro avg       0.75      0.67      0.71         9    (1+2+3)/(2+3+3)=0.75
   macro avg       0.70      0.70      0.70         9  (1+1+0.5+1+0)/5=0.7
weighted avg       0.67      0.67      0.67         9  (2/9)*1+(2/9)*1+(2/9)*0.5+(1/9)*1+(2/9)*0=0.67
 samples avg       0.72      0.64      0.67         9  (1/2+2/3+3/3)/3=0.72
表头precisionrecallf1-scoresupportprecision计算方式(自加)
01.0001.0001.00022/2
11.0001.0001.00022/2
20.5000.5000.50021/2
31.0001.0001.00011/1
40.0000.0000.00020/1
micro avg0.750.670.719(1+2+3)/(2+3+3)
macro avg0.700.700.709(1+1+0.5+1+0)/5
weighted avg0.670.670.679(2/9)*1+(2/9)*1+(2/9)*0.5+(1/9)*1+(2/9)*0
samples avg0.720.640.679(1/2+2/3+3/3)/3
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report from sklearn.preprocessing import StandardScaler # 设置中文显示 plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号 # 3. 故障报警影响因素分析 # 3.1 特征选择 features = df[['车速', '总电压', '总电流', 'SOC', '驱动电机控制器温度', '驱动电机转速', '驱动电机转矩', '驱动电机温度', '电池单体电压最高值', '电池单体电压最低值', '最高温度值', '最低温度值']] # 3.2 标签 labels = df['最高报警等级'] # 3.3 数据标准化 scaler = StandardScaler() features_scaled = scaler.fit_transform(features) # 3.4 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(features_scaled, labels, test_size=0.2, random_state=42) # 3.5 训练随机森林分类器 rfc = RandomForestClassifier(n_estimators=100, random_state=42) rfc.fit(X_train, y_train) # 3.6 模型评估 y_pred = rfc.predict(X_test) print(classification_report(y_test, y_pred)) # 3.7 特征重要性分析 feature_importances = pd.Series(rfc.feature_importances_, index=features.columns) feature_importances = feature_importances.sort_values(ascending=False) # 3.8 可视化特征重要性 plt.figure(figsize=(10, 8)) sns.barplot(x=feature_importances.values, y=feature_importances.index) plt.title('特征重要性分析') plt.xlabel('重要性得分') plt.ylabel('特征') plt.savefig(r"C:\Users\wei\Pictures\特征重要性分析.png", dpi=300) plt.show()解决代码的问题,进行优化返回
03-15
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值