白话总结《特征工程之连续变离散》

本文总结了业务中常用的特征离散化方法,包括Bucket分桶、较少数字型或字符型特征分桶以及大规模特征的哈希处理。通过分桶,连续特征可以转化为离散值,便于模型学习独立权重,解决连续特征的处理难题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目前业务所用模型都需要把连续的特征转化为离散值,特做总结如下:

1. Bucket 分桶: 把范围较广的连续值分桶

分桶的个数一般由特征意义和经验人为设定,比如年龄可以根据小学,初中,高中,大学等分桶,

此处以日期举例:

优势:

连续性特征拆分成一个四元素向量,那么模型现在可以学习四个单独的权重,与单个权重相比,离散的向量特征,由于只有一个元素置位 (1),其他三个元素清零 (0),分桶可以让模型清楚地区分不同桶的类别。即,模型可以为每个单独的分桶类别学习单独的权重,解耦。

2. 较少数字型或字符型特征分桶:也可以说是one-hot

每个桶表示一个唯一的整数或类别。

3. 如果类别很多,非常占用内存,如何one-hot?

使用哈希的方法,将原始类别转化为指定类别个数,如将‘然后再one-hot。

如我们有一万个单词,实践中不允许有一万维的one--hot向量怎么办?只能通过构建哈希函数,先给每个单词赋予一个标签,如1,2,3,4… 然后通过哈希得到哈希值(哈希值的个数可以通过哈希函数的构造限定),可以将一万个单词哈希为100个哈希值,然后再做one-hot。

如果几个类别被哈希到了同一个哈希值怎么办?哈希冲突!即获得同一个类别。——> 与机器学习中许多有悖常理的现象一样,哈希通常可以在实践中很好地运行,用就完事了。

主要参考博客:http://www.sohu.com/a/211388625_670669

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值