特征工程(Feature Engineering)

特征工程是机器学习中至关重要的步骤,包括数据理解、清洗、变换、构造和选择等阶段。它涉及到定性与定量数据的处理,如数据分桶、编码、标准化和缺失值处理。异常值检测和特征构造通过统计量、时间特征和非线性变换增强数据表达。此外,特征选择策略如过滤式、包裹式和嵌入式用于优化模型性能。面对类别不平衡问题,可以通过重采样、合成样本或调整模型策略来解决。实战部分将展示这些概念的实际应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

特征工程(Feature Engineering)

一、特征工程的相关知识点

特征工程的定义

		将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。

特征工程包含以下几个部分

    1. 数据理解;
      目的:探索数据,了解数据,主要在EDA阶段完成。
      1. 定性数据:描述性质
        a) 定类: 按名称分类 —— 血型、城市
        b) 定序: 有序分类 —— 成绩
      2. 定量数据:描述数量
        a) 定距: 可以加减 —— 温度、日期
        b) 定比: 可以乘除 —— 价格、重要
        在这里插入图片描述
    1. 数据清洗;(最重要的)
      目的: 提高数据质量,降低算法用错误数据建模的风险。
      1. 特征变换: 模型无法处理或不合适处理
        a) 定性变量编码: Label Encoder; Onehot Encoder; Destribution coding;
        b) 标准化和归一化: z分数标准化(标准正态分布)、min-max归一化࿱
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值