使用随机森林完成csv文件分类

原创已于 2024-12-18 23:06:19 修改 · 625 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#随机森林 #分类 #算法 #计算机视觉 #机器学习

于 2024-11-01 15:02:30 首次发布

文章目录

前言
一、代码使用步骤
- 1.引入库
- 2.读入数据
总结

前言

主要介绍了如何使用随机森林完成csv数据的自动分类

一、使用步骤

1.引入库

代码如下（示例）：

from sklearn.ensemble import RandomForestRegressor

from sklearn.model_selection import train_test_split

import pandas as pd

import numpy as np

#  用于保存和提取模型

import joblib

import matplotlib.pyplot as plt  # 图库

import warnings

from sklearn.tree import DecisionTreeClassifier, plot_tree  # 这里添加了对plot_tree函数的导入

2.初始化操作（完成字体与警告避免设置）

代码如下（示例）：

# 解决画图中文字体显示的问题

plt.rcParams['font.sans-serif'] = ['KaiTi', 'SimHei', 'Times New Roman']  # 汉字字体集

plt.rcParams['font.size'] = 12  # 字体大小

plt.rcParams['axes.unicode_minus'] = False

# 忽略警告

import warnings

warnings.filterwarnings('ignore')

3.读取数据操作

数据内容如下：第一行分别为对应的自变量，

# 读取数据集
data = pd.read_csv('D:/data.csv', encoding='gbk')
 
# 特征 此处选取除了label这列数据，作为自变量
X = data.drop('label', axis=1)
# 目标变量，已label这列名作为标签
y = data['label']
 
# 数据集拆分出训练集和验证集 这里设置训练集与验证集比例为8:2
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=500)
 

#使用交叉验证来选择最佳参数，确保随机森林的最优值
from sklearn.model_selection import KFold, cross_val_score
kf = KFold(n_splits=5)
best_n_estimators = 0
best_score = -np.inf
for n_estimators in range(100, 500, 100):
    RF = RandomForestRegressor(n_jobs=-1, n_estimators=n_estimators)
    scores = cross_val_score(RF, X_train, y_train, cv=kf)
    mean_score = np.mean(scores)
    if mean_score > best_score:
        best_score = mean_score
        best_n_estimators = n_estimators
# 定义一个默认随机森林回归模型  max_depth为最深随机森林层数为5
RF = RandomForestRegressor(n_jobs=-1,n_estimators=best_n_estimators, max_depth=5)
# 训练模型
RF.fit(X_train, y_train)

# 保存模型
joblib.dump(RF, r'./RF.pkl')

4：决策树可视化展示：

# 获取第一棵决策树
first_tree = RF.estimators_[0]

5：与前2000轮进行测试：

# 读取模型
RF = joblib.load(r'./RF.pkl')
 
# 模型预测
y_pred = RF.predict(X_test)
 
# 绘制线图
# 前2000条预测结果的可视化
plt.figure(figsize=(20, 6))
y_tesy_t = np.asarray(y_test)
plt.plot(y_tesy_t[:2000], label='True Values')
plt.plot(y_pred[:2000], label='Predicted Values')
plt.xlabel('Index')
plt.ylabel('Value')
plt.legend()
plt.savefig('./前200条预测结果图.jpg', dpi=400, bbox_inches='tight')
plt.show()

6：模型参数计算显示：

下文会计算随机森林的均方误差、均方根误差、平均绝对误差以及决定系数。

import numpy as np
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
 
# 模型评估
# 计算均方误差（MSE）
mse = mean_squared_error(y_test, y_pred)
print("均方误差（MSE）：", mse)
 
# 计算均方根误差（RMSE）
rmse = np.sqrt(mse)
print("均方根误差（RMSE）：", rmse)
 
# 计算平均绝对误差（MAE）
mae = mean_absolute_error(y_test, y_pred)
print("平均绝对误差（MAE）：", mae)
 
# 计算决定系数（R²）
r2 = r2_score(y_test, y_pred)
print("决定系数（R²）：", r2)

7：决策树中变量相关性分析：

# 导入必要的库
from sklearn.ensemble import RandomForestRegressor
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt  # 绘图库
# 解决画图中文字体显示的问题
plt.rcParams['font.sans-serif'] = ['SimSun', 'Times New Roman']  # 汉字字体集
plt.rcParams['font.size'] = 10  # 字体大小
plt.rcParams['axes.unicode_minus'] = False
# 忽略警告
import warnings
warnings.filterwarnings('ignore')
 
# 读取数据集
data = pd.read_csv('D:\lwjdeli/data.csv', encoding='gbk')
# Split data into features and target
X = data.drop('label', axis=1)
y = data['label']
# 定义一个随机森林回归模型
RF = RandomForestRegressor(n_jobs=-1)
# 训练模型
RF.fit(X, y)
# 获取特征重要性得分
feature_importances = RF.feature_importances_
# 创建特征名列表
feature_names = list(X.columns)
# 创建一个DataFrame，包含特征名和其重要性得分
feature_importances_df = pd.DataFrame({'feature': feature_names, 'importance': feature_importances})
# 对特征重要性得分进行排序
feature_importances_df = feature_importances_df.sort_values('importance', ascending=False)
 
# 颜色映射
colors = plt.cm.viridis(np.linspace(0, 1, len(feature_names)))
 
# 可视化特征重要性
fig, ax = plt.subplots(figsize=(10, 6))
ax.barh(feature_importances_df['feature'], feature_importances_df['importance'], color=colors)
ax.invert_yaxis()  # 翻转y轴，使得最大的特征在最上面
ax.set_xlabel('特征重要性', fontsize=12)  # 图形的x标签
ax.set_title('随机森林特征重要性可视化',fontsize=16)
for i, v in enumerate(feature_importances_df['importance']):
    ax.text(v + 0.01, i, str(round(v, 3)), va='center', fontname='Times New Roman', fontsize=10)
 
# # 设置图形样式
# plt.style.use('default')
ax.spines['top'].set_visible(False)  # 去掉上边框
ax.spines['right'].set_visible(False)  # 去掉右边框
# ax.spines['left'].set_linewidth(0.5)#左边框粗细
# ax.spines['bottom'].set_linewidth(0.5)#下边框粗细
# ax.tick_params(width=0.5)
# ax.set_facecolor('white')#背景色为白色
# ax.grid(False)#关闭内部网格线
 
# 保存图形
plt.savefig('./特征重要性.jpg', dpi=400, bbox_inches='tight')
plt.show()

整体代码：

# 导入必要的库
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
# 用于保存和提取模型
import joblib
import matplotlib.pyplot as plt  # 绘图库
import warnings
from sklearn.tree import DecisionTreeClassifier, plot_tree  # 这里添加了对plot_tree函数的导入

# 解决画图中文字体显示的问题
plt.rcParams['font.sans-serif'] = ['KaiTi', 'SimHei', 'Times New Roman']  # 汉字字体集
plt.rcParams['font.size'] = 12  # 字体大小
plt.rcParams['axes.unicode_minus'] = False
# 忽略警告
import warnings
warnings.filterwarnings('ignore')
 
# 读取数据集
data = pd.read_csv('D:\lwjdeli/data.csv', encoding='gbk')
 
# 特征
X = data.drop('label', axis=1)
# 目标变量
y = data['label']
 
# 数据集拆分出训练集和验证集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=500)
 

#使用交叉验证来选择最佳参数
from sklearn.model_selection import KFold, cross_val_score
kf = KFold(n_splits=5)
best_n_estimators = 0
best_score = -np.inf
for n_estimators in range(100, 500, 100):
    RF = RandomForestRegressor(n_jobs=-1, n_estimators=n_estimators)
    scores = cross_val_score(RF, X_train, y_train, cv=kf)
    mean_score = np.mean(scores)
    if mean_score > best_score:
        best_score = mean_score
        best_n_estimators = n_estimators
# 定义一个默认随机森林回归模型
RF = RandomForestRegressor(n_jobs=-1,n_estimators=best_n_estimators, max_depth=5)
# 训练模型
RF.fit(X_train, y_train)

# 保存模型
joblib.dump(RF, r'./RF.pkl')

# 获取第一棵决策树
first_tree = RF.estimators_[0]

# 获取目标变量的唯一值作为类别名称（这里假设是分类问题，如果是回归问题可适当调整处理方式）
class_names = y.unique()

# 使用matplotlib的plot_tree函数绘制决策树图形
plt.figure(figsize=(20, 10))
plot_tree(
    first_tree,
    filled=True,
    rounded=True,
    feature_names=X_train.columns,
    class_names=class_names,
    impurity=False,
    fontsize=10
)
plt.title('第一棵决策树树形结构')
plt.show()

# # 保存决策树图形为图片
# graph.write_png('D:\lwjdeli/第一棵决策树树形结构.png')

# 读取模型
RF = joblib.load(r'./RF.pkl')
 
# 模型预测
y_pred = RF.predict(X_test)
 
# 绘制线图
# 前2000条预测结果的可视化
plt.figure(figsize=(20, 6))
y_tesy_t = np.asarray(y_test)
plt.plot(y_tesy_t[:2000], label='True Values')
plt.plot(y_pred[:2000], label='Predicted Values')
plt.xlabel('Index')
plt.ylabel('Value')
plt.legend()
plt.savefig('./前200条预测结果图.jpg', dpi=400, bbox_inches='tight')
plt.show()



import numpy as np
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
 
# 模型评估
# 计算均方误差（MSE）
mse = mean_squared_error(y_test, y_pred)
print("均方误差（MSE）：", mse)
 
# 计算均方根误差（RMSE）
rmse = np.sqrt(mse)
print("均方根误差（RMSE）：", rmse)
 
# 计算平均绝对误差（MAE）
mae = mean_absolute_error(y_test, y_pred)
print("平均绝对误差（MAE）：", mae)
 
# 计算决定系数（R²）
r2 = r2_score(y_test, y_pred)
print("决定系数（R²）：", r2)



# 导入必要的库
from sklearn.ensemble import RandomForestRegressor
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt  # 绘图库
# 解决画图中文字体显示的问题
plt.rcParams['font.sans-serif'] = ['SimSun', 'Times New Roman']  # 汉字字体集
plt.rcParams['font.size'] = 10  # 字体大小
plt.rcParams['axes.unicode_minus'] = False
# 忽略警告
import warnings
warnings.filterwarnings('ignore')
 
# 读取数据集
data = pd.read_csv('D:\lwjdeli/data.csv', encoding='gbk')
# Split data into features and target
X = data.drop('label', axis=1)
y = data['label']
# 定义一个随机森林回归模型
RF = RandomForestRegressor(n_jobs=-1)
# 训练模型
RF.fit(X, y)
# 获取特征重要性得分
feature_importances = RF.feature_importances_
# 创建特征名列表
feature_names = list(X.columns)
# 创建一个DataFrame，包含特征名和其重要性得分
feature_importances_df = pd.DataFrame({'feature': feature_names, 'importance': feature_importances})
# 对特征重要性得分进行排序
feature_importances_df = feature_importances_df.sort_values('importance', ascending=False)
 
# 颜色映射
colors = plt.cm.viridis(np.linspace(0, 1, len(feature_names)))
 
# 可视化特征重要性
fig, ax = plt.subplots(figsize=(10, 6))
ax.barh(feature_importances_df['feature'], feature_importances_df['importance'], color=colors)
ax.invert_yaxis()  # 翻转y轴，使得最大的特征在最上面
ax.set_xlabel('特征重要性', fontsize=12)  # 图形的x标签
ax.set_title('随机森林特征重要性可视化',fontsize=16)
for i, v in enumerate(feature_importances_df['importance']):
    ax.text(v + 0.01, i, str(round(v, 3)), va='center', fontname='Times New Roman', fontsize=10)
 
# # 设置图形样式
# plt.style.use('default')
ax.spines['top'].set_visible(False)  # 去掉上边框
ax.spines['right'].set_visible(False)  # 去掉右边框
# ax.spines['left'].set_linewidth(0.5)#左边框粗细
# ax.spines['bottom'].set_linewidth(0.5)#下边框粗细
# ax.tick_params(width=0.5)
# ax.set_facecolor('white')#背景色为白色
# ax.grid(False)#关闭内部网格线
 
# 保存图形
plt.savefig('./特征重要性.jpg', dpi=400, bbox_inches='tight')
plt.show()