机器学习特征问题笔记1

本篇笔记学习于“凡人机器学习”公众号,细致问题参见公众号。

一、特征的重要性

特征工程有多重要,“数据和特征决定了模型的上限,算法只是帮忙逼近这个上限”。特征是数据对于结果的一种描述,特征工程就是要找到对结果影响最大的特征。特征分为以下几种:

1、线性特征:可以理解为用户直接可以拿到的数据字段;

2、半隐性特征:用户数据在通过GBDT等算法的计算过程中产出的一些特征;

3、隐性特征:深度学习在很大程度上可以简化人肉特征工程的工作量,深度学习在计算中生成的特征向量一般是不可解释的。

二、显性特征基本处理方法

1、数据清洗
主要包括为两部分,一是填充缺失值,因为算法在计算过程中,需要对数据进行计算,那么对缺失的部分采取相应的处理,比如标记为特殊数据,或者填充为特定值,更一般的是取对应列的均值。二是乱码问题,将数据处理为算法可以有效运行的数据。
2、去量纲
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值