稀疏性(sparse)知识点

最新推荐文章于 2025-10-17 11:24:15 发布

原创

最新推荐文章于 2025-10-17 11:24:15 发布 · 1.8w 阅读

69 ·

CC 4.0 BY-SA版权

文章标签：

#模式识别

本文探讨了模型稀疏性的重要性，通过考研学霸词汇量的例子说明稀疏特征的价值。稀疏性有助于减少非激活参数，提高效率。L1范式常用于促进稀疏性，但可能导致训练过程变长和模型收敛问题。在深度学习中，L2范式更常见以防止过拟合。

稀疏性(sparse)

定义：Sparse表示为模型内的参数中，只用很少的几个非零元素或只有很少的几个远大于零的元素。

`WHY:` 为什么模型中要包含稀疏性的特征呢？

例子：考研学霸有10000的词汇量，考试使用的词汇量，是10000个词汇积累库中的一小部分。

Example:
Test Number:123.456
第一组数字基底：
[100,10,1] $⇒\Rightarrow$ 123.456 $≈\approx$ 100 $×\times$ 1 + 10 $×\times$ 2 + 1 $×\times$ 3 (error=0.456)

第二组数字基底：
[100,50,10,1,0.5,0.1,0.03,0.01,0.001]
123.456=100 $×\times$ 1 + 50 $×\times$ 0 + 10 $×\times$ 2 + 1 $×\times$ 3 + 0.5 $×\times$ 0 + 0.1 $×\times$ 4 + 0.03 $×\times$ 0 + 0.01 $×\times$ 5 + 0.001 $×\times$ 6(error=0)

其中 Sparse Feature(有备无患): 有50,0.5,0.03这三个数。

compared with PCA(Principal Component Analysis)
PCA(a complete set of basis vectors:完备字典)
通过这组完备字典中的向量基底，对原始数据进行还原。

Sparse Represnetation(an over-complete set of basis vectors：超完备字典，与稀疏性背道而驰。)
基向量的数量远远大于输入向量的维度

如何保证稀疏性呢？

机器学习模型 $⇒\Rightarrow$ 基于训练集优化参数(比如降低Loss) $⇒\Rightarrow$ Loss中加入正则项，惩罚模型参数数值使其趋近于0

常见的操作：

最低0.47元/天解锁文章

稀疏性(sparse)知识点

稀疏性(sparse)

WHY: 为什么模型中要包含稀疏性的特征呢？

如何保证稀疏性呢？

`WHY:` 为什么模型中要包含稀疏性的特征呢？