
深度学习
文章平均质量分 85
O zil
佩服专注、安静、靠谱的人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
transformer project tutorial
这样做不太灵活(其实就是相对位置编码,需要学习),因为输入的训练数据的句子长度是变化的,如果第一个batch输入的长度是64,第二个batch输入的长度的 66,那么每次相同位置的position encoding的值都不同,所以模型可能会confused。比如一个[17, 64, 512](17个句子,每个句子被BPE编码成64个tokens,每个tokens的embedding维度为512),可以设置一个[17, 64, 512]的矩阵,其中64个token每个都直接加相应的位置索引。原创 2025-05-18 17:08:41 · 818 阅读 · 0 评论 -
一文搞懂贝叶斯定理
贝叶斯定理原创 2023-09-24 18:04:03 · 1203 阅读 · 0 评论 -
关于L1, L2的深度学习知识点
关于L0、L1和L2范数所有的范数都可以用闵可夫斯基距离(也叫 L−PL-PL−P 范数)公式求得,闵可夫斯基距离公式:Lp=(∑1nxip)1p,x⃗=(x1,x2,....,xn)L_p =(\sum_{1}^{n} x_i^p)^\frac{1}{p}, \vec x=(x_1,x_2, ....,x_n)Lp=(∑1nxip)p1,x=(x1,x2,....,xn)L0 范数(∣∣x⃗∣∣0||\vec x||_0∣∣x∣∣0)按照闵可夫斯基公式可知会带开0次方,但是开0原创 2021-06-26 11:13:33 · 1218 阅读 · 0 评论 -
目标检测评价算法代码
(1) IOU的计算def iou_xywh_torch(boxes1, boxes2): """ :param boxes1: boxes1和boxes2的shape可以不相同,但是需要满足广播机制,且需要是Tensor :param boxes2: 且需要保证最后一维为坐标维,以及坐标的存储结构为(x, y, w, h) :return: 返回boxes1和boxes2的IOU,IOU的shape为boxes1和boxes2广播后的shape[:-1] """原创 2021-09-20 14:37:09 · 897 阅读 · 0 评论 -
损失函数
Loss函数机器学习中的监督学习本质上是给定一系列训练样本(xi,yi)(\bf{x_i}, \bf{y_i})(xi,yi), 尝试学习x⟶y\bf{x} \longrightarrow \bf{y}x⟶y,使得给定一个x\bf{x}x,即便这个x\bf{x}x不在训练样本中,也能够输出y^\bf{\hat{y}}y^,尽量与真实的y\bf{y}y接近。损失函数是用来估量模型的输出y^\bf{\hat{y}}y^与真实值y\bf{y}y之间的差距,给模型的优化指引方向。首先区分损失函数、代价函原创 2021-09-21 15:33:03 · 467 阅读 · 0 评论 -
Swin Transformer解读
Swin Transformer详细解读这里以Swin-T(imagenet-1k)为例。PPL如下图:Swin Transformer的解读按PPL的流程主要包括4个部分。(1)Patch Embedding过程(2)W-MSA块的过程(3)WS-MSA块的过程(4)Patch Merging过程<1>Patch Embedding过程首先设定patch的大小为44,所以一张2242243的输入图片被分成5656*3个patch(注意此处,先定patch大小,然后算patch原创 2021-09-21 16:29:24 · 902 阅读 · 0 评论