机器学习基础
文章平均质量分 55
机器学习基础,通用名词为主
jzwei023
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer Decoder-Only 算力FLOPs估计
一个全连接层的神经网络计算的过程可以看成是两个矩阵进行相乘的操作,忽略掉激活函数(activation)部分的计算,假设输入矩阵是A、矩阵大小是H×I,全连接层的参数矩阵是B、矩阵大小是I×W,全连接层矩阵计算过程实际就是:Y=AB。根据反向传播的计算量是前向传播的2倍的结论,假设模型整个训练过程语料Token数是 T ,可以估算Transfomer训练(前向传播+反向传播)的FLOPs 约等于: C_train ≈ 2N × 3 × T = 6NT。其中Y的每个元素都是经过D次相乘以及D-1加法。原创 2025-05-11 13:49:39 · 1159 阅读 · 0 评论 -
Transformer Decoder-Only 参数量计算
Transformer 的假设d_attn = d_model,d_ff = 4 × d_model参数定义:d_mdole:模型维度;n_layer:层数;d_attn:注意力输出维度;d_ff:前馈网络维度;n_ntx:最大上下文长度(token)n_head:注意力头数n_vacab:词汇表大小。原创 2025-05-11 12:15:01 · 1157 阅读 · 0 评论 -
为啥大模型一般将kv进行缓存,而q不需要
大模型一般将kv进行缓存,而q不需要原创 2025-05-09 14:53:48 · 1389 阅读 · 0 评论 -
BERT的变种
bert以及bert各种变种概述原创 2023-02-20 23:37:26 · 1027 阅读 · 0 评论 -
为啥说q 是每个 token 独立生成的,k 和 v 是跨 token 共享的
Transformer模型中的自注意力机制通过独立的线性变换生成每个token的Query(q)、Key(k)和Value(v)。其中,q是局部生成的,每个token的q仅依赖于其自身的嵌入向量,用于代表该token的查询意图。而k和v则是全局共享的,所有token的k和v被集中起来形成一个全局矩阵,用于提供全局信息供其他token查询。原创 2025-05-09 11:21:21 · 1126 阅读 · 0 评论 -
基础问题-汇总
虽然在训练期间 Dropout 会随机丢弃部分神经元,但模型的权重并不会因为 Dropout 的启用或禁用而发生变化。框架通常会在训练时对激活值进行缩放(例如,乘以保留概率),以确保在评估时直接使用全网络时,激活值的期望值保持一致。Dropout是一种常用的正则化技术,它通过在每次前向传播时随机“丢弃”(即将输出设置为0)一部分神经元来减少过拟合。这样做的目的是迫使网络学习到更鲁固的特征表示,而不是过分依赖于特定的神经元组合。原创 2025-01-02 13:06:01 · 200 阅读 · 0 评论 -
相似度计算
衡量变量之间的相似度原创 2023-12-26 21:42:13 · 635 阅读 · 1 评论 -
Pooling
RoI pooling感兴趣区域池化(Region of interest pooling)是使用卷积神经网络在目标检测任务中广泛使用的操作。其目的是对非均匀尺寸的输入执行最大池化以获得固定尺寸的特征图。对于来自输入列表的每个感兴趣区域,它采用与其对应的输入特征图的一部分并将其缩放到某个预定义的大小(例如,7×7): 将区域提案划分为相等大小的部分(其数量与输出的维度相同) 找到每个部分的最大值 将这些最大值复制到输出(max pooling) ...原创 2022-02-17 14:37:06 · 560 阅读 · 0 评论 -
xgboost为啥使用二阶泰勒展开?
1. 直接理解一阶导指引梯度方向,二阶导指引梯度方向如何变化,所以二阶信息本身就能让梯度收敛更快更准确。这里可以对比牛顿法和SGD。牛顿法是二阶收敛,梯度下降是一阶收敛,当初始点选取合理的情况下,牛顿法比梯度下降法收敛的速度快。通俗的讲,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。(牛顿法目光原创 2021-09-13 14:17:58 · 4043 阅读 · 0 评论 -
向量检索综述
各向量检索方法的性能比较:https://blog.youkuaiyun.com/luoyexuge/article/details/84235421Faiss (Facebook AI Similarity Search)针对高维空间中的海量数据,提供了高效且可靠的检索方法。AnnoyAnnoy是 Spotify开源的高维空间求近似最近邻的库,在 Spotify 使用它进行音乐推荐。...原创 2021-04-07 22:39:45 · 192 阅读 · 0 评论 -
分类树vs回归树
参考分类树就是面向分类的,每个决策树最末端的叶子结点出来的是一个分类标签;回归树就是面向回归的,回归就是拟合函数一样,输出连续值1.分类树的最后一层叶子结点后才是分类标签,其他时候的节点都不是,可以认为是某个特征属性。2.回归树的所有节点可以理解为都是一个东西,就是待回归属性,比如温度,最后的回归值是把树走完走到最后一个节点的值。...转载 2021-05-25 17:19:35 · 3259 阅读 · 0 评论 -
candidate sampling
Sampled SoftmaxHierarchical softmaxNegative SamplingNoise Contrastive Estimation(NCE)Info-NCE原创 2021-04-11 22:30:42 · 156 阅读 · 0 评论 -
负对数似然 交叉熵 mse mae的区别
交叉熵的介绍见https://blog.youkuaiyun.com/jzwei023/article/details/115496906?spm=1001.2014.3001.5501交叉熵 vs 二阶Loss函数逻辑回归一些简单的网络中,我们会使用MSE(均方误差mean-square error)这样的二阶Loss函数。然而二阶loss函数,会存在一个问题。ANN被设计的一个最大优势在于可以根据误差进行学习来调整参数。误差越大,则希望调整的幅度越大,从而收敛速度越快。而二阶loss函数则有可能误差越大原创 2021-04-11 22:22:33 · 1415 阅读 · 0 评论 -
卷积-反卷积、空洞卷积、因果卷积、图卷积
反卷积、空洞卷积原创 2021-03-19 23:57:17 · 2273 阅读 · 1 评论 -
L0、L1、L2范数
范数L0范数:是指向量中非0的元素的个数L1范数:是指向量中各个元素绝对值之和L2范数:是指向量各元素的平方和然后求平方根作用1. L1范数和L0范数可以实现稀疏(让向量中非0的元素的个数尽量少)L1因具有比L0更好的优化求解特性(L0范数是NP难问题很难优化求解,L1范数是L0范数的最优凸近似)而被广泛应用。 应用在特征选择或者可解释上2. L2可以防止过拟合最小化L2范数的规则项,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0...原创 2021-03-09 00:09:01 · 1236 阅读 · 1 评论 -
准确率、精确率、召回率、F-Score
TP-将正类预测为正类FN-将正类预测为负类FP-将负类预测位正类TN-将负类预测位负类准确率(正确率)=所有预测正确的样本/总的样本 (TP+TN)/总精确率= 将正类预测为正类 / 所有预测为正类 TP/(TP+FP)召回率 = 将正类预测为正类 / 所有正真的正类 TP/(TP+FN)F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值)...原创 2021-03-08 22:52:14 · 965 阅读 · 0 评论 -
训练集、验证集、测试集
通常情况下,我们将样本分成训练集(train)、验证集(validation)和测试集(test),比如按8:1:1。有了模型后,训练集就是用来训练参数的,说准确点,一般是用来梯度下降的。而验证集基本是在每个epoch完成后,用来测试一下当前模型的准确率。因为验证集跟训练集没有交集,因此这个准确率是可靠的。那么为啥还需要一个测试集呢?从狭义来讲,验证集没有参与梯度下降的过程,也就是说是没有经过训练的;但从广义上来看,验证集却参与了一个“人工调参”的过程,我们根据验证集的结果调节了迭代数、调节了学习率原创 2021-03-07 23:07:14 · 761 阅读 · 0 评论 -
旋转不变性、尺度不变性
旋转不变性:只要对特征定义了方向,然后在同一个方向上进行特征描述就可以实现旋转不变性。尺度不变性:为了实现尺度不变性,需要给特征加上尺度因子。在进行特征描述的时候,将尺度统一就可以实现尺度不变性了。所谓的旋转不变性和尺度不变性的原理,就是我们在描述一个特征之前,将两张图像都变换到同一个方向和同一个尺度上,然后再在这个统一标准上来描述这个特征。同样的,如果在描述一个特征之前,将图像变换到同一个仿射尺度或者投影尺度上,那么就可以实现仿射不变性和投影不变性。卷积神经网络保证“位移、尺度、形..原创 2021-03-07 23:01:43 · 5430 阅读 · 0 评论 -
生成式模型 vs 判别式模型
对于样本x,预测其类别y,即计算 p(y|x) ,简单来说生成式模型:是对联合概率 p(x,y) 进行建模,然后利用贝叶斯公式 p(y|x) = p(x,y) / p(x) 进行计算朴素贝叶斯混合高斯模型隐马尔科夫模型(HMM)贝叶斯网络Sigmoid Belief Networks马尔科夫随机场(Markov Random Fields)深度信念网络(DBN)判别式模型:直接对条件概率 p(y|x) 建模K近邻(KNN)线性回归(Linear Regression)逻辑斯蒂原创 2021-03-07 19:35:04 · 220 阅读 · 0 评论 -
过拟合、欠拟合、高偏差、高方差
过拟合在训练样本上误差较小,在验证集上误差较大欠拟合在训练样本和验证集上误差都教大偏差、方差高偏差,高方差高偏差=欠拟合:就是对所有的数据,不管是训练集还是验证集,预测结果与真实结果都有较大的偏差高方差=过拟合:就是训练集的时候偏差较小,但验证集上偏差较大,所以波动较大,即方差较大...原创 2021-03-07 19:04:19 · 1225 阅读 · 0 评论
分享