
深度学习
文章平均质量分 86
与风共舞true
我们需要的越少,我们越接近于神
展开
-
深度学习各个层——一句话说清楚
这一层的神经元与上一层全部来连接,比如全连接神经网络层,轻装上阵,输出最后结果(分类或回归)原创 2023-08-19 23:24:25 · 132 阅读 · 0 评论 -
机器学习十大算法+各大深度学习名词(一段话讲清楚)
误差值为负就提升权重,为正就降低权重受比率即学习率的制约,用来调整学习率调整参数的高低由于强大的调整能力,BP控制下的神经网络容易过拟合,也就是在训练数据上表现得很好,在测试数据上不行,可以采用提前停止的策略,分一个验证集,来估算误差,如果训练集的误差减少但是验证集的误差增高,就证明网络过于适用于训练集,这时就可以结束训练。原创 2023-08-18 11:01:40 · 493 阅读 · 0 评论 -
训练、验证和测试一句话搞懂
a和b是模型的参数,在训练模型前我们需要设定很多参数,即超参数:函数空间,损失函数,优化函数。类比课后习题,纠正和强化知识点,评估不同超参数训练出的模型效果,优化模型。类比课堂知识,训练模型得到参数,让你知道这个知识点是什么。这里我们使用了T1,T2两个点实现了模型,y=ax+b。使用了T3的x3来测试模型的拟合效果。x横坐标就是特征向量,y就是目标标签。考试,评估最终模型的效果。原创 2023-08-09 23:03:30 · 459 阅读 · 0 评论 -
深度学习概念合集(一)
60个概念原创 2023-01-28 20:24:33 · 1485 阅读 · 0 评论 -
注意力机制
QKt就是多个查询和多个物品向量来计算相似性 转置是便于相乘,得到一个相似性的实数值。自注意力机制将注意力机制包含在里面,qkv全在source部分。关注重点,找出重点,发现更多细节信息,抑制无用信息。没有用注意力的情况,各个权重一样,就不合理了。注意力机制的q\k\v是分布在两侧的。1、注意力机制和子注意力机制的区别。多头注意力机制的情况是多个单层的。p指的是不足的填充p,超出的不要。s指的是开始,e指的结束。不同的头提取的信息不同。使用注意力机制的情况。1指的是只有一个例子。原创 2023-03-23 22:38:43 · 1088 阅读 · 0 评论 -
深度学习概念合集(二)
56层比20层要错误要高很多,那多的36层怎么搞,需要来进行同等映射,不能剔除,那就把有用的层保持,无用的层权重参数变成0。感受野的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。原来卷积结果+最初的,旧和新的相加,里面可能有白玩的,好的用,错的白玩,这样就能保证至少不比原来差。一种用来学习类别特征的神经网络结构,主要由两部分组成,生成网络、判别网络。插值算法还包括了传统插值,基于边缘图像的插值,还有基于区域的图像插值。在传统神经网络上改进的,有圈。原创 2023-03-22 11:53:21 · 388 阅读 · 0 评论 -
全卷积网络FCN
与经典CNN在卷积层使用全连接层得到固定长度的特征向量进行分类不同,FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷基层的特征图(feature map)进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每一个像素都产生一个预测,同时保留了原始输入图像中的空间信息,最后奇偶在上采样的特征图进行像素的分类。3的图像,前5层是卷积层,第5层的输出是256个特征图,大小是66,即25666,第6、7、8层分别是长度是4096、4096、1000的一维向量。反卷积上采样需要训练,但能更好的还原特征图;原创 2023-03-22 11:50:52 · 313 阅读 · 0 评论 -
Transformer代码分析
最早的词向量是很冗长的,它使用是词向量维度大小为整个词汇表的大小,对于每个具体的词汇表中的词,将对应的位置置为1。比如我们有下面的5个词组成的词汇表,词"Queen"的序号为2, 那么它的词向量就是(0,1,0,0,0)。同样的道理,词"Woman"的词向量就是(0,0,0,1,0)。比如下图我们将词汇表里的词用"Royalty",“Masculinity”, "Femininity"和"Age"4个维度来表示,King这个词对应的词向量可能是(0.99,0.99,0.05,0.7)。原创 2023-03-22 11:52:28 · 748 阅读 · 0 评论