平均值编码

博客介绍了针对高基数定性特征的数据预处理方法。一般可用sklearn的OneHotEncoder或LabelEncoder编码,OneHotEncoder可制作稀疏矩阵,LabelEncoder能将类别编码为整数,但隐含顺序假设。还提到平均数编码,在贝叶斯架构下,利用应变量有监督确定编码方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://zhuanlan.zhihu.com/p/26308272

  1. 针对高基数定性特征(类别特征)的数据预处理

  2. 一般情况下,针对定性特征,我们只需要使用sklearn的OneHotEncoder或LabelEncoder进行编码

  3. OneHotEncoder:则能通过哑编码,制作出一个m*n的稀疏矩阵

  4. LabelEncoder :能够接收不规则的特征列,并将其转化为从0n-1的整数值、LabelEncoder将n种类别编码为从0到n-1的整数,虽然能够节省内存降低算法的运行时间,但是隐含了一个假设:不同的类别之间,存在一种顺序关系

  5. 平均数编码:在贝叶斯的架构下,利用所要预测的应变量(target variable),有监督地确定最适合这个定性特征的编码方式

  • 基本思想:将variable中的每一个k,都表示为(估算的)它所对应的目标y值概率

    \hat{P} (target = y | variable = k)。(估算的结果都用“^”表示,以示区分)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值