连续值的离散化有啥作用

在特征工程中,我们常常需要对连续型特征进行离散化处理,那么这么做有什么好处呢?下面做简单的总结:

1.离散特征的增加和减少都很容易,易于模型的快速迭代

2.系数矩阵内机乘法运算速度更快,计算结果方便存储,易于扩展;

3.离散化后的特征对异常数据有很强的鲁棒性。比如一个特征是年龄=300岁,会给模型造成很大的干扰;

4.单变量离散化N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;

5.离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;

6.特征离散化后,模型会更稳定,比如:用用户年龄离散化后,20-30作为一个区间,不会因为一个用户年龄增长1岁变成完全不同的人,当然处于区间相邻的样本会刚好相反,所以划分是门学问

7.特征离散化以后,起到了简化逻辑回归模型的的作用,降低模型过拟合的风险。
 

### 最大似然估计中损失函数的作用 在最大似然估计(MLE, Maximum Likelihood Estimation)框架下,损失函数的核心作用是对模型预测值与实际观测数据之间的差异进行量化。具体来说,在 MLE 中使用的负对数似然作为损失函数时,其目标是最小化该损失以找到最可能生成观察到的数据的参数组合[^1]。 #### 负对数似然作为损失函数的意义 当采用概率分布建模时,假设样本独立同分布 (i.i.d.) 条件成立,则联合概率可以表示为各个单独事件的概率乘积形式。为了简化计算并避免数值溢出问题,通常取自然对数转换成加法运算得到对数似然(log-likelihood),再通过最大化此表达式来优化模型参数。然而,在许多现代算法实现过程中,更倾向于最小化一个正值的目标函数——即转而考虑 **负对数似然(negative log-likelihood)** 作为最终的损失度量标准[^2]。 对于连续型随机变量情况下的高斯噪声环境为例: 如果我们的输出 y 是由输入 x 和一些附加误差 ε 所决定,并且我们假定这个误差服从均值为零的标准正态分布 N(0,σ²),那么我们可以写出如下条件密度 p(y|x;θ): \[p(y | x ; \theta)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\left(\frac{(y-\mu(x))^2}{2 \sigma^{2}}}\right)}\] 其中 μ(x) 表达了给定特定 θ 下对应于某个固定 x 值所预期产生的平均响应水平。此时如果我们想要利用上述定义好的概率质量函数去构建相应的极大可能性准则的话就需要引入所谓的 “损失项”,也就是常说的那个平方差代价函数: ```python def squared_loss(y_true, y_pred): return ((y_true - y_pred) ** 2).mean() ``` 这实际上就是基于高斯假设推导出来的特殊情形之一。 --- ### 应用场景分析 以下是几个典型的应用领域及其特点说明: #### 图像分类任务中的交叉熵损失 在图像识别或者文本处理等领域经常遇到多类别标签标注的问题,这时常用 softmax 函数配合 cross entropy loss 实现端到端训练过程。例如卷积神经网络 CNNs 就广泛应用于此类场合之中: ```python import torch.nn.functional as F loss_fn = nn.CrossEntropyLoss() output = model(data) # output has shape [batch_size, num_classes] target = target.long() loss = loss_fn(output, target) ``` 这里需要注意的是 Cross Entropy Loss 可视为一种特殊的 Negative Log-Likelihood 形式,适用于离散空间内的分类决策边界寻找工作当中。 #### 时间序列预测中的 MSE 损失 针对回归性质的时间序列预测问题,比如股票价格走势预估或者是天气预报等方向上,MSE(mean square error) 或 MAE(median absolute error) 这样的简单直观指标往往被选作评估工具。它们本质上反映了不同类型的残差结构特性,同时也间接体现了背后隐含的最大似然思想: ```python criterion = nn.MSELoss() predicted = net(input_var) actual = Variable(torch.randn((bsize))) loss = criterion(predicted, actual) ``` 在这种情况下,默认采用了 Gaussian Distribution 的前提设定,因此对应的最优解路径正好吻合传统意义上的 OLS 方法论逻辑链条上的结论。 --- ### 总结 综上所述,无论是理论层面还是实践操作角度出发,都可以发现最大似然估计方法内部蕴含着深刻的数学哲理以及强大的工程适用价值。通过对合适类型损失函数的选择运用,能够有效指导复杂系统的参数调整流程直至收敛至全局极优状态附近区域为止[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值