选择特征(一千个特征,一千种模型)
以房价问题为例,假设数据集中有两个特征,分别是房子的宽度和长度,我们就可以建立一个这样的线性回归模型,其对应的假设函数 h θ ( x ) = θ 0 + θ 1 × f r o n t a g e + θ 2 × d e p t h h_θ(x)=\theta_0+θ_1×frontage+θ_2×depth hθ(x)=θ0+θ1×frontage+θ2×depth, f r o n t a g e frontage frontage 对应 x 1 x_1 x1, d e p t h depth depth 对应 x 2 x_2 x2,但我们不一定非要使用这两个特征来进行预测,我们可以自己创造新的特征。
比如,对于上述的问题,我们觉得真正影响房价的是房子的大小,所以我们可以定义一个新特征 s i z e = f r o n t a g e × d e p t h size=frontage×depth size=