惩罚线性回归与预测模型构建
1. 扩展属性集构建线性模型
在构建线性模型时,我们可以先对属性集进行扩展,然后使用已有的工具来构建线性模型。若扩展中使用的函数是原始变量的幂函数,那么线性模型会得出原始变量多项式函数的系数。通过选择不同的扩展函数,还能构建其他函数系列。
例如,在葡萄酒属性扩展中,新属性与原始属性之间存在函数依赖关系,我们可以看到平方、对数和正弦等函数行为。
2. 处理非数值属性
惩罚线性回归等线性方法通常要求输入的属性为数值型。当数据集中存在非数值属性(如分类属性)时,需要将其转换为数值属性。常见的做法是将分类变量编码为多个新的属性列。
若一个属性有N个可能的值,通常会将其编码为N - 1个新的数据列,具体操作如下:
- 为N个属性中的N - 1个属性确定N - 1列数据。
- 对于每一行,如果该行取值为分类变量的第i个可能值,则在第i列中填入1,其他列填0。
- 如果该行取值为分类变量的第N个值,则所有列都填0。
以鲍鱼数据集为例,其第一个属性(性别)有三个取值:M(雄性)、F(雌性)和I(幼体,性别不确定)。以下是将性别属性编码为数值属性的Python代码:
__author__ = 'mike_bowles'
from Read_Fcns import list_read_abalone
import matplotlib.pyplot as plt
from math import sqrt
from sklearn.preprocessing import StandardScal
超级会员免费看
订阅专栏 解锁全文
2536

被折叠的 条评论
为什么被折叠?



