【机器学习-08】特征工程的选择
本章直观地展示了新的**特征工程(Feature Engineering)**生成:通过转换(transforming)或组合(combining)原始特征生成新特征,以提升模型性能。以下是详细解析:
1. 新特征的生成
• 原始特征:
• frontage
(房屋正面宽度)和 depth
(房屋深度)是直接从数据中获取的原始特征(图中标注为 x₁
和 x₂
)。
• 新特征:
• 通过转换(transforming)或组合(combining)原始特征,基于领域直觉设计新特征的过程
• 例如通过将 frontage
和 depth
相乘,生成新特征 x₃ = area
(房屋面积),即 x₃ = x₁ × x₂
。
• 这种组合能更直接反映房屋的物理属性(面积可能比单独的长/宽对房价预测更有用)。
2. 数学表达
图片中的公式分为两部分:
- 原始模型:
f(x) = w₁x₁ + w₂x₂ + b
• 仅使用原始特征x₁
(frontage)和x₂
(depth),权重为w₁
、w₂
,偏置为b
。 - 加入新特征后的模型:
f(x) = w₁x₁ + w₃x₃ + b
• 用新特征x₃
(面积)替代x₂
,权重变为w₁
和w₃
。
• 新特征可能更有效捕捉数据规律(例如,房价与面积呈线性关系)。
3. 特征工程的意义
• 解决非线性问题:
原始特征可能是线性无关的,但组合后(如面积)可能与目标变量(如房价)呈现更强的线性关系。
• 减少模型复杂度:
用 x₃
替代 x₁
和 x₂
可能简化模型(如从二维降到一维),同时保留关键信息。
4. 应用场景
• 房价预测:面积(frontage × depth
)比单独的长/宽更有预测力。
• 其他领域:
• 电商:将“点击次数”和“浏览时长”组合为“用户参与度”。
• 图像处理:将像素值组合为纹理特征。
总结来说,通过简单的房屋示例和公式,生动说明了如何通过特征工程创造更有信息量的特征,从而让机器学习模型更高效、更准确。