L1,L2

博客主要介绍正则化项L1和L2的区别。L1和L2是为防止模型过拟合加在损失函数后的罚项。L1是参数绝对值之和,趋向产生少量特征;L2是参数平方和开方,选择更多接近0的特征。还探讨参数小代表模型简单、参数稀疏好处及二者避免过拟合的原因。

正则化项L1和L2的区别

https://www.cnblogs.com/lyr2015/p/8718104.html

https://blog.youkuaiyun.com/jinping_shi/article/details/52433975

https://blog.youkuaiyun.com/zouxy09/article/details/24971995

一、概括:

L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。

二、区别:

  1.L1是模型各个参数的绝对值之和。

   L2是模型各个参数的平方和的开方值。

  2.L1会趋向于产生少量的特征,而其他的特征都是0.

    因为最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为0 ,产生稀疏权重矩阵

     L2会选择更多的特征,这些特征都会接近于0。  

          最优的参数值很小概率出现在坐标轴上,因此每一维的参数都不会是0。当最小化||w||时,就会使每一项趋近于0

三、再讨论几个问题

1.为什么参数越小代表模型越简单?

  越是复杂的模型,越是尝试对所有样本进行拟合,包括异常点。这就会造成在较小的区间中产生较大的波动,这个较大的波动也会反映在这个区间的导数比较大。

  只有越大的参数才可能产生较大的导数。因此参数越小,模型就越简单。

2.实现参数的稀疏有什么好处?

  因为参数的稀疏,在一定程度上实现了特征的选择。一般而言,大部分特征对模型是没有贡献的。这些没有用的特征虽然可以减少训练集上的误差,但是对测试集的样本,反而会产生干扰。稀疏参数的引入,可以将那些无用的特征的权重置为0.

3.L1范数和L2范数为什么可以避免过拟合?

  

  加入正则化项就是在原来目标函数的基础上加入了约束。当目标函数的等高线和L1,L2范数函数第一次相交时,得到最优解。

  L1范数:

  L1范数符合拉普拉斯分布,是不完全可微的。表现在图像上会有很多角出现。这些角和目标函数的接触机会远大于其他部分。就会造成最优值出现在坐标轴上,因此就会导致某一维的权重为0 ,产生稀疏权重矩阵,进而防止过拟合。

  L2范数:

  L2范数符合高斯分布,是完全可微的。和L1相比,图像上的棱角被圆滑了很多。一般最优值不会在坐标轴上出现。在最小化正则项时,可以是参数不断趋向于0.最后活的很小的参数。

  假设要求的参数为θθ,hθ(x)hθ(x)是我们的假设函数,那么线性回归的代价函数如下:

  

  那么在梯度下降法中,最终用于迭代计算参数θθ的迭代式为:

  

  如果在原始代价函数之后添加L2正则化,则迭代公式会变成下面的样子:

  

  每一次迭代,θj都要先乘以一个小于1的因子,从而使得θj不断减小,因此总得来看,θ是不断减小的。

### 关于ARM架构中的L1L2缓存细节 #### L1 缓存概述 在ARM架构中,L1缓存通常被设计为靠近处理器核心的位置,以提供最低延迟的数据访问能力。它分为指令缓存(Instruction Cache, I-Cache)数据缓存(Data Cache, D-Cache)。这种分离的设计有助于减少因竞争同一缓存而导致的冲突。 - **多路组相联结构**:L1缓存一般采用N-Way Set-Associative的方式实现[^3]。这种方式能够在性能复杂度之间取得平衡。例如,在某些高性能ARM核中,L1缓存可能配置为4-way或更高。 - **TLB集成**:除了传统的I-CacheD-Cache外,L1还集成了Translation Lookaside Buffer (TLB),用于加速虚拟地址到物理地址的转换过程[^1]。 #### 特殊功能——MOP Cache 针对特定应用场景下的优化需求,部分现代ARM微体系结构引入了一种名为MOP Cache的技术。该技术主要用于存储已经解码后的宏操作指令(Macro Operation),从而进一步降低前端流水线的压力并提高能效比[^2]。 ```python # 示例伪代码展示如何模拟简单的Cache行为 class SimpleCache: def __init__(self, size=64, associativity=4): self.size = size # 假设单位KB self.associativity = associativity def access(self, address): # 实现具体的查找逻辑... pass ``` #### L2 缓存的作用与特性 相比起更贴近计算单元的L1缓存来说,L2缓存具有更大容量以及相对较高的延时特点。其主要职责在于缓解内存子系统的带宽瓶颈问题,并服务于多个共享资源之间的协作关系。 - **全相联 vs 组相联**:尽管理论上完全自由映射能够带来最佳命中概率,但由于硬件成本过高而不适合大规模部署;因此大多数情况下会选择折衷方案即8-way或者16-way set associative作为构建基础。 - **写策略**:关于写入操作方面存在两种常见模式:“Write Through” “Write Back”。而在后者基础上还可以细分为是否启用write allocation机制。如果启用了这一选项,则意味着即使是在遇到miss事件之后也需要先把相应block载入进来再执行修改动作[^4]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值