✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。
🍎个人主页:Matlab科研工作室
🍊个人信条:格物致知。
更多Matlab仿真内容点击👇
⛄ 内容介绍
随机森林(Random Forest)是一种集成学习算法,用于解决分类和回归问题。它由多个决策树组成,每个决策树都是通过对训练数据进行自助采样(bootstrap)得到的。
基于随机森林的数据分类步骤如下:
-
准备数据集:将数据集划分为特征矩阵(X)和目标变量(y)。
-
随机选择样本:对于每个决策树,从样本集中随机选择一部分样本进行训练,这样每个决策树都使用了不同的样本。
-
构建决策树:使用训练样本集构建决策树模型。在每个节点上,通过选择最佳特征和划分标准来划分数据。
-
重复步骤2和3:重复步骤2和3,构建多个决策树。
-
进行预测:对于分类问题,通过投票或多数表决来确定最终的分类结果。对于回归问题,通过取平均值来确定最终的预测值。
随机森林算法具有以下优点:
-
能够处理大量的输入特征,并且不需要特征缩放。
-
可以评估特征的重要性,并通过特征选择来提高模型性能。
-
对于缺失数据和不平衡数据集具有鲁棒性。
-
可以处理高维数据和非线性关系。
然而,随机森林也有一些限制:
-
对于包含大量决策树的大型模型,预测速度可能较慢。
-
对于某些特定的问题,随机森林可能过拟合训练数据。
总的来说,基于随机森林的数据分类是一种强大且灵活的方法,适用于各种分类问题。
⛄ 代码
%% 清空环境变量warning off % 关闭报警信息close all % 关闭开启的图窗clear % 清空变量clc % 清空命令行%% 导入数据res = xlsread('数据集.xlsx');%% 划分训练集和测试集temp = randperm(357);P_train = res(temp(1: 240), 1: 12)';T_train = res(temp(1: 240), 13)';M = size(P_train, 2);P_test = res(temp(241: end), 1: 12)';T_test = res(temp(241: end), 13)';N = size(P_test, 2);%% 数据归一化[p_train, ps_input] = mapminmax(P_train, 0, 1);p_test = mapminmax('apply', P_test, ps_input );t_train = T_train;t_test = T_test ;%% 转置以适应模型p_train = p_train'; p_test = p_test';t_train = t_train'; t_test = t_test';%% 训练模型trees = 50; % 决策树数目leaf = 1; % 最小叶子数OOBPrediction = 'on'; % 打开误差图OOBPredictorImportance = 'on'; % 计算特征重要性Method = 'classification'; % 分类还是回归net = TreeBagger(trees, p_train, t_train, 'OOBPredictorImportance', OOBPredictorImportance, ...'Method', Method, 'OOBPrediction', OOBPrediction, 'minleaf', leaf);importance = net.OOBPermutedPredictorDeltaError; % 重要性%% 仿真测试t_sim1 = predict(net, p_train);t_sim2 = predict(net, p_test );%% 格式转换T_sim1 = str2double(t_sim1);T_sim2 = str2double(t_sim2);%% 性能评价error1 = sum((T_sim1' == T_train)) / M * 100 ;error2 = sum((T_sim2' == T_test )) / N * 100 ;%% 绘制误差曲线figureplot(1: trees, oobError(net), 'b-', 'LineWidth', 1)legend('误差曲线')xlabel('决策树数目')ylabel('误差')xlim([1, trees])grid%% 绘制特征重要性figurebar(importance)legend('重要性')xlabel('特征')ylabel('重要性')%% 数据排序[T_train, index_1] = sort(T_train);[T_test , index_2] = sort(T_test );T_sim1 = T_sim1(index_1);T_sim2 = T_sim2(index_2);%% 绘图figureplot(1: M, T_train, 'r-*', 1: M, T_sim1, 'b-o', 'LineWidth', 1)legend('真实值', '预测值')xlabel('预测样本')ylabel('预测结果')string = {'训练集预测结果对比'; ['准确率=' num2str(error1) '%']};title(string)gridfigureplot(1: N, T_test, 'r-*', 1: N, T_sim2, 'b-o', 'LineWidth', 1)legend('真实值', '预测值')xlabel('预测样本')ylabel('预测结果')string = {'测试集预测结果对比'; ['准确率=' num2str(error2) '%']};title(string)grid%% 混淆矩阵figurecm = confusionchart(T_train, T_sim1);cm.Title = 'Confusion Matrix for Train Data';cm.ColumnSummary = 'column-normalized';cm.RowSummary = 'row-normalized';figurecm = confusionchart(T_test, T_sim2);cm.Title = 'Confusion Matrix for Test Data';cm.ColumnSummary = 'column-normalized';cm.RowSummary = 'row-normalized';
⛄ 运行结果





⛄ 参考文献
[1] 张月梅,刘媛华.基于K近邻和随机森林的情感分类研究[J].计算机与数字工程, 2020, 48(2):5.DOI:CNKI:SUN:JSSG.0.2020-02-020.
[2] 杜增丰,董建江,栾振东,等.一种基于随机森林算法的底栖动物高光谱数据分类方法:CN202211053615.1[P].CN202211053615.1[2023-07-23].
[3] 杨浩宇.基于随机森林算法的高维不平衡数据分类研究及应用[D].郑州大学[2023-07-23].DOI:CNKI:CDMD:2.1017.139820.
文章介绍了随机森林算法在数据分类中的应用,包括算法原理、优势和限制,并提供了使用Matlab进行随机森林模型训练和预测的代码示例,同时展示了性能评价和特征重要性分析。
553






