- 博客(4)
- 收藏
- 关注
原创 Transformer位置编码详解
摘要 Transformer模型采用正弦和余弦函数进行位置编码,将token的位置信息转换为$d_{model}$维向量。该编码方式具有以下特性:1)不同位置特征随$pos$呈正弦/余弦变化;2)允许$PE(pos+k)$表示为$PE(pos)$的线性组合,便于模型捕捉相对位置关系;3)周期性函数不受序列长度限制。代码实现中,位置编码通过三角函数计算并叠加到输入向量,同时使用Dropout增强泛化性。该设计有效解决了自注意力机制缺乏位置感知的问题。
2025-10-15 17:58:25
1423
原创 XGBoost打分函数公式推导
XGBoost打分函数通过优化带正则项的目标函数推导得出。核心推导步骤包括:1)构建包含损失函数和正则项的目标函数;2)进行泰勒二阶展开近似;3)定义一阶梯度$G_j$和二阶梯度$H_j$;4)求导得到最优叶子节点权重$w_j^*=-G_j/(H_j+\lambda)$;5)计算分裂增益$Gain=\frac{1}{2}[\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}]-\gamm
2025-09-17 15:36:58
612
原创 逻辑回归损失函数解析
逻辑回归损失函数解析摘要: 逻辑回归的损失函数基于极大似然估计原理,通过最大化所有样本预测正确的概率来推导得出。该损失函数将正负样本的预测概率统一表示为$P = p_i^{y_i}\cdot(1-p_i)^{1-y_i}$,对所有样本取对数后加负号,得到最终的交叉熵损失形式。最小化这个损失函数等价于最大化样本预测正确的概率,体现了极大似然估计的思想,即选择使预测结果与真实标签最一致的模型参数。
2025-09-03 21:38:27
1246
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1