Abstract
作者提出一个新的次梯度方法家族,可以动态地吸收之前的看过的数据的信息,来进行更informative的基于梯度的学习.它可以找到很有信息的特征,即使非常罕见.
1.Introduction
背景:在很多在线学习中,样本维度很高,但是只有少量非零特征.罕见的特征经常很有信息量.前人基于这点,做了很多工作,比如TF-IDF.
直觉:高频学习率低,低频学习率高.高速模型,低频时间要”注意”.
本文介绍了一种新的Adagrad次梯度方法家族,该方法能够在在线学习过程中动态利用之前的数据信息来提高基于梯度的学习效果。这种方法特别适用于高维样本中稀疏且信息丰富的特征,并通过调整学习率来优化高频与低频特征的学习效率。
作者提出一个新的次梯度方法家族,可以动态地吸收之前的看过的数据的信息,来进行更informative的基于梯度的学习.它可以找到很有信息的特征,即使非常罕见.
背景:在很多在线学习中,样本维度很高,但是只有少量非零特征.罕见的特征经常很有信息量.前人基于这点,做了很多工作,比如TF-IDF.
直觉:高频学习率低,低频学习率高.高速模型,低频时间要”注意”.
您可能感兴趣的与本文相关内容
2万+
1582

被折叠的 条评论
为什么被折叠?