Terminology of Machine Learning
A
- AdaGrad
一种复杂的梯度下降算法,重新调节每个参数的梯度,高效地给每个参数一个单独的学习率。详见论文:Adaptive Subgradient1 - AUC,ROC
ROC曲线,AUC by @ds17
C
- Converence
收敛
- 训练一定次数后,再迭代,训练损失和验证损失,改变很小或不变;
- 对当前数据再训练已经无法再提升模型表现水平的时候,即收敛。
Concex function
凸函数
形状大致呈“U”形或“碗”形的函数,例如:- L2损失函数
- Log损失函数
- L1正则化函数
- L2正则化函数
两个凸函数相加后任然是凸函数。
- Cross-entropy
交叉熵
- 多类别分类问题中对Log损失函数的推广。
- 交叉熵量化两个概率分布之间的区别。
- 参见困惑度(perplexity)。
D
- Decision boundary
决策边界
- 二元分类或多类别分类问题中模型学习的类别之间的分离器
- Dense feature
密集特征←→ 稀疏特征(sparse feature)
- 大多数取值为非零的一种特征,通常用取浮点值的张量(tensor)表示
- derived feature
派生特征,合成特征(synthetic feature) - discrete feature
离散特征,有限个取值的特征 - Dynamic model
动态模型
- 以连续更新的方式在线训练的模型。即数据连续不断的输入模型。
P
- perplexity
困惑度
- 对模型完成任务的程度的一种度量指标。
P=2−CrossEntropy
- 对模型完成任务的程度的一种度量指标。
S
- Softmax
- synthetic feature
合成特征
W
- wide model
宽模型 ←→ 深度模型
- 线性模型通常具备很多稀疏输入特征
- 具有大量与输出节点直接连接的输入,是一种特殊类型的神经网络
- 尽管宽模型无法通过隐藏层表达非线性,但它们可以使用特征交叉和 bucketization 等转换用不同方式对非线性建模。

2144

被折叠的 条评论
为什么被折叠?



