[Sklearn应用] Preprocessing data (二)Binarization 二分化

本文介绍Sklearn库中的数据预处理方法——Binarization,即通过阈值将数值特征转换为二进制值。二值化有助于下游概率估计器处理遵循多元伯努利分布的数据,如BernoulliRBM。它能用稀疏矩阵表示,节省存储,加快计算,并能有效处理缺失值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

此内容在sklearn官网地址:http://scikit-learn.org/stable/modules/preprocessing.html#
sklearn版本:0.18.2

Binarization

Feature binarization is the process of thresholding numerical features to get boolean values. This can be useful for downstream probabilistic estimators that make assumption that the input data is distributed according to a multi-variate Bernoulli distribution. For instance, this is the case for the sklearn.neural_network.BernoulliRBM. ——scikit-learn.org

  根据设定的阈值将连续的变量离散化,转化成0、1。具有以下优点:

  • 可以用稀疏矩阵表示,节省存储空间,加快计算速度。
  • 可以有效处理 miss_value(NA)

**稀疏矩阵(sparse matrix)&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值