- 博客(20)
- 收藏
- 关注
原创 (1)yolo11猫狗实时检测实战项目,从零开始写yolov11代码
让新手快速上手yolo11,实现猫狗实时检测实战项目,从零开始写yolov11代码
2024-12-11 17:43:48
2390
原创 (4)YOLOv2和yolov1的差异
YOLOv2改进了预测坐标的方法,不再直接预测目标的绝对坐标,而是预测相对于锚点框(anchor boxes)的偏移量。 通过这些改进,YOLOv2能够更准确地预测目标的位置,并且能够处理不同尺寸的目标。锚点框是预先定义的一组边界框,它们的形状和尺寸各异,用于匹配不同大小的目标。YOLOv2为每个锚点框预测一个置信度得分,这个得分表示锚点框包含目标的可能性。对于每个锚点框,YOLOv2还预测一个条件类别概率,这个概率是在锚点框包含目标的条件下,目标属于特定类别的概率。是预测边界框与真实边界框的交并比。
2024-12-13 18:18:09
905
原创 (3)YOLOv1训练过程,新手入门
大家好,现在我们学习yolo11的训练过程,训练过程涉及到了YOLOv1的核心机制,包括网格划分、边界框预测、损失计算以及参数更新等关键步骤,这些步骤共同作用使得YOLOv1能够学习到从图像中检测目标的能力。
2024-12-12 10:25:21
1508
原创 关于Transformer的解码器的理解
输入序列 ----> 获得Q, K, V ----> 计算Q和K的点积 ----> 对点积结果掩码操作 ----> 除以\sqrt{d_k} ----> Softmax归一化 --> 获取计算注意力权重 --> 权重与V相乘 --> 输出。输入序列 (目标语言) ----> 嵌入位置编码 ----> 解码器自注意力层 ----> 编码器-解码器注意力层 ----> 融合编码器输出 ----> 解码器前馈网络 ----> 输出序列。最终,解码器层的输出会被传递到下一个解码器层,或者作为最终的输出序列。
2024-12-11 17:48:14
1023
原创 Transformer的多头注意力机制
想要正确翻译需要掌握好每个词的含义、词组的含义、语法、语义、语境、可读性、流畅性、文化差异、专业术语、语言的动态性,甚至还得考虑目标语言读者的预期和背景知识。“在量子计算的黎明时期,尽管面对着来自经典算法的激烈竞争和公众对于其可行性的普遍怀疑,那些在纳米尺度上操纵物质的先驱们,却仍然坚信他们能够解锁一种全新的解决问题的方式,这种方式可能会颠覆我们对宇宙最基本规律的理解。:如“黎明时期”、“激烈竞争”、“普遍怀疑”、“解锁一种全新的解决问题的方式”。:理解句子的整体意义,以及如何将这些意义在翻译中准确传达。
2024-11-02 10:46:46
660
原创 Transformer比RNN好在哪里
通过这个翻译任务,我们可以看到Transformer模型在处理复杂且长的句子时,如何利用其自注意力机制和并行计算的优势,来有效地处理长距离依赖关系,从而提高翻译的准确性和效率。但在现实生活中,经常会遇到很多超长的句子,而RNN无法记住那么多细节上的东西,最后只会翻译前面忘了后面,更不懂各种复杂的倒装句、状语从句该如何翻译,翻译了放哪个位置。如果是翻译的简单句子,仅仅需要关注相邻的单词,例如“我爱你”这种只有主谓宾的简短句子,那用RNN足够了。他今天仍然决定去书店购买另一本更深入探讨。
2024-10-29 11:57:32
1072
原创 Transfermer的Q、K、V设计的底层逻辑
虽然从数学的角度来看,Q和K在计算过程中是对称的,从数学公式上看,Q和K可以互换,但实际上它们在模型中扮演的角色是不同的。Q是当前元素的表示,而K是序列中其他元素的表示。这种区分是必要的,因为它们在模型中的作用和意义不同。将它们视为不同的实体有助于我们更好地理解和设计模型。
2024-09-09 11:03:44
2322
原创 Transformer的数学基础之Softmax
可以看出,三个值的差异已经不是一个量级了,输出的第1、2个值量级特别大,基本为0,第三个值为1。我们课看到输入的参数也才2倍、3倍的差别,而输出却是0,0,1。也就是说,在数量级较大时, 可以看出,这向量的三个值还是比较近的,输入是小微变化,而输出也是小微变化,符合我们要的归一化。 可以看出,尽管输入值差别不大,但是结果的差距速度拉大了。 可见,输入太大,会把结果变得十分陡峭,导致落在。的极端区域,趋于0或者1,而且在极端区域的。函数的梯度值趋于0,不利于模型学习。
2024-09-08 12:20:16
1719
1
yolo11猫狗实时检测实战项目,从零开始写yolov11代码
2024-12-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅