目录
1.决策树
需要注意的点:
Ptr<TrainData> data_set = TrainData::loadFromCSV("mushroom.data",//文件名
0,//第0行略过
0,
1,//区间[0,1)为存储了响应列
"cat[0-22]",//0-22行均为类别数据
',',//数据间的分隔符号为","
'?');//丢失数据用"?"表示
1.数据类型有cat和ord之分,具体可以参阅统计数据定义:
https://zhidao.baidu.com/question/1964314134743418500.html
2.默认的响应列的格式(第2-第3行)是前闭后开;
3.分割训练集和数据集时,数据集的顺序会大幅度的影响决策树的结果:
data_set->setTrainTestSplitRatio(0.90, false);
4.对于概率权重的设置,你可以理解为对识别某一类物体具有相对更高的准确率(请注意我的矩阵初始化方法);
float _priors[] = { 1.0,10.0 };
Mat priors(1, 2, CV_32F, _priors);
dtree->setPriors(priors);//为所有的答案设置权重
5.在OpenCV3.0以上的版本使用决策树与随机森林所继承的类都是RTrees,相比与DTrees而言,新的类RTrees能够处理数据集中的缺失数据,建模的唯一区别就是在生成随机森林时,需要设置树的终止生成条件,默认是100棵树:
forest_mushroom->setTermCriteria(TermCriteria(TermCriteria::MAX_ITER
+ TermCriteria::EPS, 100, 0.01));//随机森林的终止标准
6.模型的存储与加载:
dtree->save("dtree_01.xml");//保存
Ptr<RTrees> dtree = RTrees::load("dtree_01.xml");//加载训练模型
7.如果你想用加载后的模型进行数据的分类和回归,请务必手动创建训练集、测试集和验证集;这是因为如果你的数据集里面含有字母类别,那么opencv会以默认的方式转化为ASCALL码并归一化,在这种情况下如果依旧使用默认的方式加载验证集,必然会在使用predict时程序崩溃。
决策树的训练代码:
毒蘑菇的数据集:https://github.com/oreillymedia/Learning-OpenCV-3_examples/tree/master/mushroom
#include<iostream>
#include<opencv2/opencv.hpp>
using namespace cv;
using namespace ml;
using namespace std;
//1.生成训练集结构体对象指针
Ptr<TrainData> data_set = Trai