数据挖掘相关知识点梳理

1 特征工程

    1.1 数据预处理

        1.1.1 异常值处理

        1.1.2 空值处理

        1.1.3 去量纲化:标准化和归一化

        1.1.4 定性特征转化为哑变量:参考https://www.zhihu.com/question/28641663/answer/110165221

定性特征不能直接使用:某些机器学习算法和模型只能接受定量特征的输入,那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值,但是这种方式过于灵活,增加了调参的工作。通常使用哑编码的方式将定性特征转换为定量特征:假设有N种定性值,则将这一个特征扩展为N种特征,当原始特征值为第i种定性值时,第i个扩展特征赋值为1,其他扩展特征赋值为0。哑编码的方式相比直接指定的方式,不用增加调参的工作,对于线性模型来说,使用哑编码后的特征可达到非线性的效果。

    1.2 特征选择

        1.2.1 根据特征方差选择

如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。

        1.2.2 根据特征与目标的相关性选择

与目标相关性高的特征,应当优选选择。

             皮尔逊相关系数

            卡方检验

            互信息

            基于模型的特征选择方法

    1.3 降维

             PCA

             SVD

             LDA

2 重要模型

    2.1 决策树和相关的集成学习模型

        2.1.1 ID3、C4.5、CART

        2.1.2 回归树

        2.1.3 bagging

        2.1.4 boosting

             GBDT

             XGBoost

    2.2 深度学习

    2.3 文本挖掘

        LDA主题模型

        LSI

        

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值