
AI调参侠
文章平均质量分 63
三七、
eeeee,曲项向天歌
展开
-
BatchNorm 和 LayerNorm的差异
对于神经网络中,layer=Batchnorm(inputs, axis=[a,b,c])和layer=BatchnoLayerNormrm(inputs, axis=[a,b,c])而言,batchnorm的均值和方差维度等于[a,b,c],而Layernorm会对输入中[a,b,c]这部分计算得到一个方差标量。正则化的核心当然是参数矩阵归一化,即均值和方差的计算。不同norm结构的区别正是计算均值和方差的方式。假设输入inputs完整维度未[x,y,a,b,c]。原创 2023-06-16 17:22:54 · 324 阅读 · 0 评论 -
AUC的计算、物理意义,
ROC曲线与坐标轴围城的面积。ROC曲线由不同阈值下,TPR(Y轴)与FPR(X轴)两个指标绘制成的。证明思路为根据AUC定义,使用积分求ROC曲线下面积,对积分进行展开即可。原创 2022-07-09 00:36:01 · 1157 阅读 · 1 评论 -
神经网络异常调试方法
训练模型时遇到这种情况,大多数为模型参数值过大,导致值溢出。具体原因可能为学习率过大模型结构设计不合理,数据传递缺少归一化,导致模型参数值不断变大。可以通过加入合理的输入归一化,以及权重衰减来完成。调试方法将出现异常后的模型权重保存下来。以pytorch为例,使用torch.save(model.state_dict(), path)打印模型所有参数矩阵的标准统计量model = ModelTransformer()model.load_state_dict(torch.load(..原创 2021-11-21 10:37:22 · 2683 阅读 · 4 评论 -
决策树模型(ID3、C4.5、CART)与集成学习(bagging、boosting)
文章目录一、决策树1.0 属性选择评价指标相关概念1.1 ID3算法(多叉树)1.2 C4.5算法(多叉树)1.3 CART算法(二叉树)二、集成学习2.1 Bagging2.1.1 随机森林2.2 Boosting2.2.1 xgBoost2.2.2 adaBoost一、决策树1.0 属性选择评价指标相关概念熵:信息熵:信息熵增益:信息熵增益比:基尼指数:1.1 ID3算法(多叉树)属性选择:信息增益用途:多分类任务1.2 C4.5算法(多叉树)属性选择:信息增益比用途原创 2021-03-20 18:19:41 · 714 阅读 · 0 评论 -
常见深度学习优化算法比较
一、变量说明一下算法均为针对小批量梯度下降的算法,对于每个batch, 计算各个模型参数值为xtx_txt,参数梯度值为gtg_tgt,ttt为更新的步数。学习率为名称小批量随机梯度下降动量法AdaGradRMSPropAdaDeltaAdam维护变量xt−1x_{t-1}xt−1 gtg_tgt...原创 2020-07-27 23:14:14 · 626 阅读 · 0 评论 -
命名实体识别LSTM+CRF的前向计算推导
文章目录1. log linear model1.2 逻辑回归1.1 CRF与逻辑回归的区别2. NER中的LSTM+CRF2.1 CRF的特征定义2.2 参数估计2.3 全局正则项的计算优化参考文献在用LSTM+CRF做命名实体识别任务时,由于pytorch框架的crf需要自己实现,网上的很多教程都跳过了一些关键部分导致自己难以理解。本文用来记录自己的相关理解,仅针对线性链式的CRF。欢迎指正...原创 2020-03-28 17:50:19 · 1166 阅读 · 0 评论 -
《推荐系统与深度学习》阅读简记
1.推荐系统的基础算法1.1 基于内容的推荐根据用户喜好和item的特征来推荐,需要考虑item的特征提取1.2 基于协同的算法(collaborative filtering)1.2.1 基于物品的协同(ItemCF)协同,即假定用户会偏好购买相似的物品。以下方法计算物品相似度:基于共同喜欢用户列表使用购买次数N计算物品i与j的相关度:wij=∣Ni∩Nj∣∣Ni∗Nj∣w_{i...原创 2019-09-23 21:41:52 · 651 阅读 · 0 评论 -
keras:LSTM部分参数解析
源码注释如下:即该参数为True的时候将返回整个序列的输出,否则只返回最后一个输出。以文本任务,假设LSTM有10个单元,那么返回参数为True时将返回这10个单元各自的隐藏状态(这里的隐藏状态为一个向量),适用于序列标注任务。否则只返回最后一个单元的隐藏状态,适用于序列分类任务。...原创 2020-01-09 11:54:24 · 2030 阅读 · 0 评论