此内容在sklearn官网地址:http://scikit-learn.org/stable/modules/preprocessing.html#
sklearn版本:0.18.2
Binarization
Feature binarization is the process of thresholding numerical features to get boolean values. This can be useful for downstream probabilistic estimators that make assumption that the input data is distributed according to a multi-variate Bernoulli distribution. For instance, this is the case for the sklearn.neural_network.BernoulliRBM. ——scikit-learn.org
根据设定的阈值将连续的变量离散化,转化成0、1。具有以下优点:
- 可以用稀疏矩阵表示,节省存储空间,加快计算速度。
- 可以有效处理 miss_value(NA)
**稀疏矩阵(sparse matrix):**零元素数目远远多于非零元素数目,并且非零元素的分布没有规律的矩阵。
Sklearn中的数据二值化预处理

本文介绍Sklearn库中的数据预处理方法——Binarization,即通过阈值将数值特征转换为二进制值。二值化有助于下游概率估计器处理遵循多元伯努利分布的数据,如BernoulliRBM。它能用稀疏矩阵表示,节省存储,加快计算,并能有效处理缺失值。
最低0.47元/天 解锁文章
1905

被折叠的 条评论
为什么被折叠?



