连续值的离散化有啥作用

最新推荐文章于 2023-03-28 16:04:58 发布

原创最新推荐文章于 2023-03-28 16:04:58 发布 · 813 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#连续值的离散化

面试行专栏收录该内容

3 篇文章

订阅专栏

在特征工程中，我们常常需要对连续型特征进行离散化处理，那么这么做有什么好处呢？下面做简单的总结：

1.离散特征的增加和减少都很容易，易于模型的快速迭代；

2.系数矩阵内机乘法运算速度更快，计算结果方便存储，易于扩展；

3.离散化后的特征对异常数据有很强的鲁棒性。比如一个特征是年龄=300岁，会给模型造成很大的干扰；

4.单变量离散化N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；

5.离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；

6.特征离散化后，模型会更稳定，比如：用用户年龄离散化后，20-30作为一个区间，不会因为一个用户年龄增长1岁变成完全不同的人，当然处于区间相邻的样本会刚好相反，所以划分是门学问

7.特征离散化以后，起到了简化逻辑回归模型的的作用，降低模型过拟合的风险。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lamusique

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

机器学习特征工程之连续变量离散化：等频分箱

data+scenario+science+insight

08-27

1224

机器学习特征工程之连续变量离散化：等频分箱 离散化，就是把无限空间中有限的个体映射到有限的空间中；根据用户的听音乐的数据来预测哪些歌曲更受欢迎。假设大部分人听歌都很平均，会不停的听新的歌曲，但是有一个用户24小时的不停播放同一首歌曲，并且这个歌曲很偏门，导致这首歌的总收听次数特别高。如果用总收听次数来喂给模型，就会误导模型。这时候就需要使用“二值化”。拿每个人的收入举例，大部分人的收入都不高，极少数人的收入极其高，分布很不均匀。有些人月收入3000，有些人月收入30万，跨了好几个数量级。.

算法设计：离散化技术的7个常见应用场景

最新发布

AI 算法实战派

06-14

1101

本文旨在用“小学生能听懂”的语言，解释离散化技术的核心原理，并结合7个真实技术场景，展示它如何在实际问题中“化腐朽为神奇”。我们不追求复杂的数学公式，而是通过生活案例和代码实战，让你真正掌握离散化的“设计思维”。本文将按“概念→场景→实战”的逻辑展开：先通过“整理书架”的故事理解离散化；再拆解7个经典应用场景（附代码示例）；最后用机器学习特征处理的实战案例，带你亲手实现离散化。离散化：将复杂数据映射为紧凑形式的“重新编号”技术。两种方法：排序去重法（处理离散值）、分箱法（处理连续值）。核心目标。

参与评论您还未登录，请先登录后发表或查看评论

连续数值的离散化方法

11-22

详细描述了连续数据离散化的方法，阐述的比较详细

连续数据的离散化

weixin_45553106的博客

11-10

4119

离散化的优势在特征工程中，我们常常需要对连续型特征进行离散化处理，下面对离散化的优势做简单总结: 映射到高维度空间,用linear的LR更快,且兼具更好的分割性稀疏化,0,1向量内积乘法运算速度快,计算结果方便存储,容易扩展单变量离散化N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合离散特征的增加和减少都很容易，易于模型的快速迭代模型稳定,收敛度高...

将连续型特征离散化的需要 or 优势

xiao_ling_yun的博客

03-28

659

越是离散的特征、越是非线性模型，其建模能力越强，泛化性也就越强。那么连续型特征在离散化后的具体优势在哪里呢

面经之连续值特征做离散化的好处

yuyang_1992的博客

11-03

2402

在特征工程中，我们常常需要对连续型特征进行离散化处理，那么这么做有什么好处呢？下面做简单的总结： 1.离散特征的增加和减少都很容易，易于模型的快速迭代； 2.系数矩阵内机乘法运算速度更快，计算结果方便存储，易于扩展； 3.离散化后的特征对异常数据有很强的鲁棒性。比如一个特征是年龄=300岁，会给模型造成很大的干扰； 4.单变量离散化N个后，每个变量有单独的权重，相当于为模型引入了非线性，能...

机器学习处理数据为什么把连续性特征离散化，离散化有何好处？

积一时之步，臻千里之遥程

05-20

2338

作者：自信回头来源：知乎原文链接：机器学习处理数据为什么把连续性特征离散化，离散化有何好处？在机器学习中，很多人在处理数据的时候，经常把连续性特征离散化。为此挺好奇，为什么要这么做，什么情况下才要做呢。一、离散化原因数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点： 1、算法需要比如决策树、朴素贝叶斯等算法，都是基于离散型的数据展开的。如果要使用该类算法，必须将离散型的数据进行。有效的离散化能.

逻辑回归中的连续特征为什么要离散化处理？

biubiubiu888的博客

05-08

7890

LR面试题: 特征处理 LR并行化特征处理 1.知乎上的一个问题: https://www.zhihu.com/question/31989952 连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？题主机器学习大白一个。。最近刚接触CTR预估，发现CTR预估一般都是用LR，而且特征都是离散的。为什么一定要用离散特征呢？这样做的好处在哪里？求大拿们解答～...

matlab z变换离散化_matlab 数字滤波入门

weixin_39558221的博客

11-11

1215

序言这是一篇最简单不过的matlab数字信号处理的介绍，里面涉及数字滤波，简单的图像处理和信号检测1. 时间序列分析入门模拟与数字信号我们本身生活在一个模拟量的世界里，所谓模拟量，即连续变化量，屋里的温度是连续变化的，时间是连续变化的，诸如此类。而计算机是数字系统，他不能处理模拟量，而只能处理离散量，这意味着我们要把连续的模拟量进行采样，得到一系列离散的数字量。一个连续的正弦信号。X为时间，Y为每...

数据离散化之chimerge算法的实现（python版）（以莺尾花数据为例）

weixin_43550933的博客

12-14

2306

今天介绍一种数据离散化方法——chimerge,该方法的主要思想是把所有的连续数据排序并分成多个区间，每次计算相邻两个区间的卡方(chi)值，（卡方见卡方分析，）每次取卡方值最小的两个区间进行合并。在此之前，先介绍一下chi的计算：表一为某个特征的observe列表，即实际的区间类别1 类别2 类别3 i行的总数 [4.3,4.5] 1 0 0 1 [4.6,4.9] 0 1 2 3 j列的总数 1 1 2 4 表2为根据表一所计算出的expecte列表，即期望的，计算方

连续系统离散化问题

03-09

连续系统离散化问题 1. 香农定理与控制系统采样周期 1） --香农定理 2）采样周期导致信号滞后—影响系统稳定

连续特征离散化的好处

codestrom04

06-29

1415

转自：https://note.youdao.com/ynoteshare1/index.html?id=024fa3dbabf4b5a07eb72c8021e60f62&type=note 连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？ Q:CTR预估，发现CTR预估一般都是用LR，而且特征都是离散的。为什么一定要用离散特征呢？这样做的好处在哪里？ A: ...

关于连续值离散化[MODL]

liuzhiqiangruc

10-18

1183

将连续值离散化的问题，在数据挖掘和机器学习的任务中并不鲜见，当然离散化的方法也有很多。本文将要介绍的是一种基于数据标签（label）来对连续数据值做离散化分割的监督学习方法。问题：考虑有如下数据： 1，0 2，0 3，0 4，0 5，0 6，1 7，1 8，1 9，1 10，1 第一列是连续值数...

［每日问答］离散化的作用是什么？

七月知上的博客

05-10

3904

离散化的作用是什么？1.算法需要 2.对异常数据有很强的鲁棒性 3.有利于对非线性关系进行诊断和描述 4.加快运算速度 5.特征交叉 6.模型更加稳定

连续特征离散化的必要性

SkullSky的博客

05-21

603

在什么情况下将连续的特征离散化之后可以获得更好的效果？工业界中很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征，这样做的优点可以归纳为以下几点： 1. 特征鲁棒性更强 离散化后的特征对异常值有很强的鲁棒性。比如对于一个连续特征：年龄，如果直接将其作为特征，一个异常数据“年龄300岁”会给模型造成很大的干扰；如果离散为年龄>30为1，否则0。离散化后年龄300岁也会被归为0，如果训练数据中没有出现特征"年龄-300岁"，那么在LR模型中，其权重对应于0，所以，即使

离散化作用

weixin_34121304的博客

04-20

204

转载于:https://www.cnblogs.com/jian-gao/p/10741270.html

连续数据离散化

十三

06-02

2793

#数据规范化 import pandas as pd datafile = 'eeeee/chapter4/demo/data/discretization_data.xls' #参数初始化 data = pd.read_excel(datafile) #读取数据 data = data[u'肝气郁结证型系数'].copy() k = 4 #等宽离散化 d1 = pd.cut(data, k,...

对连续数值进行指定方式离散化，计算分布，用cut函数

机器学习菜鸟

07-13

646

ages = [20,22,25,27,21,23,37,31,61,45,41,32] bins = [18,25,35,60,100] #用的是cut函数 cats = pd.cut(ages,bins) print(pd.value_counts(cats))

互联网广告综述之点击率特征工程

热门推荐

mytestmy的专栏

02-11

2万+

互联网广告综述之点击率特征工程声明： 1）该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献 2）本文仅供学术交流，非商用。所以每一部分具体的参考资料并没有详细对应，更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益，还望海涵，并联系老衲删除或修改，直到相关人士满意为止。 3）本人才疏学浅

最大似然估计损失函数有啥用

03-19

### 最大似然估计中损失函数的作用在最大似然估计（MLE, Maximum Likelihood Estimation）框架下，损失函数的核心作用是对模型预测值与实际观测数据之间的差异进行量化。具体来说，在 MLE 中使用的负对数似然作为损失函数时，其目标是最小化该损失以找到最可能生成观察到的数据的参数组合[^1]。 #### 负对数似然作为损失函数的意义当采用概率分布建模时，假设样本独立同分布 (i.i.d.) 条件成立，则联合概率可以表示为各个单独事件的概率乘积形式。为了简化计算并避免数值溢出问题，通常取自然对数转换成加法运算得到对数似然(log-likelihood)，再通过最大化此表达式来优化模型参数。然而，在许多现代算法实现过程中，更倾向于最小化一个正值的目标函数——即转而考虑 **负对数似然(negative log-likelihood)** 作为最终的损失度量标准[^2]。对于连续型随机变量情况下的高斯噪声环境为例：如果我们的输出 y 是由输入 x 和一些附加误差 ε 所决定，并且我们假定这个误差服从均值为零的标准正态分布 N(0,σ²)，那么我们可以写出如下条件密度 p(y|x;θ): \[p(y | x ; \theta)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\left(\frac{(y-\mu(x))^2}{2 \sigma^{2}}}\right)}\] 其中 μ(x) 表达了给定特定 θ 下对应于某个固定 x 值所预期产生的平均响应水平。此时如果我们想要利用上述定义好的概率质量函数去构建相应的极大可能性准则的话就需要引入所谓的 “损失项”，也就是常说的那个平方差代价函数: ```python def squared_loss(y_true, y_pred): return ((y_true - y_pred) ** 2).mean() ``` 这实际上就是基于高斯假设推导出来的特殊情形之一。 --- ### 应用场景分析以下是几个典型的应用领域及其特点说明： #### 图像分类任务中的交叉熵损失在图像识别或者文本处理等领域经常遇到多类别标签标注的问题，这时常用 softmax 函数配合 cross entropy loss 实现端到端训练过程。例如卷积神经网络 CNNs 就广泛应用于此类场合之中: ```python import torch.nn.functional as F loss_fn = nn.CrossEntropyLoss() output = model(data) # output has shape [batch_size, num_classes] target = target.long() loss = loss_fn(output, target) ``` 这里需要注意的是 Cross Entropy Loss 可视为一种特殊的 Negative Log-Likelihood 形式，适用于离散空间内的分类决策边界寻找工作当中。 #### 时间序列预测中的 MSE 损失针对回归性质的时间序列预测问题，比如股票价格走势预估或者是天气预报等方向上，MSE(mean square error) 或 MAE(median absolute error) 这样的简单直观指标往往被选作评估工具。它们本质上反映了不同类型的残差结构特性，同时也间接体现了背后隐含的最大似然思想: ```python criterion = nn.MSELoss() predicted = net(input_var) actual = Variable(torch.randn((bsize))) loss = criterion(predicted, actual) ``` 在这种情况下，默认采用了 Gaussian Distribution 的前提设定，因此对应的最优解路径正好吻合传统意义上的 OLS 方法论逻辑链条上的结论。 --- ### 总结综上所述，无论是理论层面还是实践操作角度出发，都可以发现最大似然估计方法内部蕴含着深刻的数学哲理以及强大的工程适用价值。通过对合适类型损失函数的选择运用，能够有效指导复杂系统的参数调整流程直至收敛至全局极优状态附近区域为止[^1]。