线性模型中的特征工程与模型选择
1. 城市因素对房价误差分布的影响
在分析房价预测误差时,我们发现误差分布因城市而异。理想情况下,每个城市箱线图的中位数应与 y 轴上的 0 对齐。然而,皮埃蒙特(Piedmont)超过 75% 的房屋销售误差为正,这意味着实际销售价格高于预测值;而里士满(Richmond)超过 75% 的房屋销售价格低于预测值。这种模式表明,我们应该在模型中纳入城市因素,因为从实际情况来看,地理位置会对房价产生影响。
2. 分类特征的特征工程
2.1 常数模型回顾
我们最初拟合的模型是常数模型,通过最小化平方损失来找到最佳拟合常数:
[ \min_{c} \sum_{i} (y_{i} - c)^{2} ]
2.2 纳入名义特征
我们可以用类似的方式将名义特征纳入模型,即为每个类别对应的子数据集找到最佳拟合常数:
[ \min_{c_{B}} \sum_{i \in Berkeley} (y_{i} - c_{B})^{2} \quad \min_{c_{L}} \sum_{i \in Lamorinda} (y_{i} - c_{L})^{2} ]
[ \min_{c_{P}} \sum_{i \in Piedmont} (y_{i} - c_{P})^{2} \quad \min_{c_{R}} \sum_{i \in Richmond} (y_{i} - c_{R})^{2} ]
2.3 独热编码
独热编码(One-hot encoding)是另一种描述该模型的方式。它将分类特征转换为多个仅包含 0 或 1 的数
线性模型特征工程与选择
超级会员免费看
订阅专栏 解锁全文
1808

被折叠的 条评论
为什么被折叠?



