选择特征(一千个特征,一千种模型)
以房价问题为例,假设数据集中有两个特征,分别是房子的宽度和长度,我们就可以建立一个这样的线性回归模型,其对应的假设函数hθ(x)=θ0+θ1×frontage+θ2×depthh_θ(x)=\theta_0+θ_1×frontage+θ_2×depthhθ(x)=θ0+θ1×frontage+θ2×depth,frontagefrontagefrontage 对应 x1x_1x1,depthdepthdepth 对应 x2x_2x2,但我们不一定非要使用这两个特征来进行预测,我们可以自己创造新的特征。
比如,对于上述的问题,我们觉得真正影响房价的是房子的大小,所以我们可以定义一个新特征 size=frontage×depthsize=frontage×depthsize=frontage×dept