1.分类与预测
- 定义
分类:构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别,分类模型建立在已有类标记的数据集上。
预测:建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
两步过程:通过训练集建立预测属性(数值型的)的函数模型;在模型通过检验后进行预测或控制。 - 实现过程
(1)学习步
通过归纳分析训练样本集来建立分类模型得到分类规则
(2)分类步
先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测本集进行预测。 - 常用的分类与预测算法
(1)定义
回归分析:确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。
(2)模型分类
*回归分析
· 线性回归
适用条件:呈线性关系,用最小二乘法求解模型系数
· 非线性回归
适用条件:呈非线性关系,用非线性最小二乘方法求解
· Logistic回归
适用条件:因变量一般有1和0(是否)两种取值
广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0和1之间,表示取值为1的概率
Logistic回归建模步骤:
a. 根据目的设置指标变量
b. 列车线性回归方程&#x