- 博客(9)
- 资源 (15)
- 收藏
- 关注
原创 Pytorch编写一个融合多尺度和Self-Attention的分类网络
Pytorch编写一个融合多尺度和Self-Attention的分类网络
2025-02-12 16:50:01
133
原创 Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构
可能是指Multi-Head Local Attention,即多头局部注意力,这种机制通常用于减少计算量,特别是在处理长序列时,每个头只关注局部区域。然后,用户需要完整的代码实现。我需要确保代码结构清晰,包含必要的部分,比如窗口划分、相对位置编码、RoPE的应用,以及前向传播的实现。需要注意的难点包括如何高效地划分窗口,如何在窗口内应用RoPE,以及如何处理序列边缘的窗口(比如填充或不足窗口大小时的处理)。最后,测试代码是否能够运行,并给出示例输入和输出的说明,帮助用户理解如何使用实现的MLA层。
2025-02-11 09:24:27
432
原创 Pytorch实现一个简单DeepSeek中的MOE混合专家网络架构
MOE混合专家模型通常由多个专家网络和一个路由机制组成,路由负责将输入数据分配给不同的专家,然后将结果整合起来。首先,专家网络部分可以用几个全连接层来实现。每个专家应该有相同的结构,但独立的参数。例如,每个专家可能是一个简单的多层感知机(MLM)。接下来是路由机制。常见的路由方法有基于softmax的门控,比如将输入通过一个全连接层生成权重,然后选择权重最高的几个专家。这里可能需要考虑如何实现稀疏性,比如Top-K选择。不过用户可能只需要基础版本,所以先用softmax路由,可能后面再加上Top-K。
2025-02-11 08:57:05
1016
原创 DeepSeek中的ROPE旋转编码的作用
传统的位置编码比如绝对位置的sinusoidal编码或者可学习的embedding,而ROPE通过旋转矩阵来融入位置信息,可能更高效或者效果更好。但可能用户更关注的是ROPE本身的机制,而不仅仅是DeepSeek的实现细节,所以需要先讲清楚ROPE的基本原理,再提到在DeepSeek中的具体应用情况。比如,ROPE通过旋转查询和键向量来注入位置信息,这样可以在注意力机制中保持相对位置的信息,同时可能具有更好的外推性,也就是处理比训练时更长的序列的能力。
2025-02-11 08:39:24
489
原创 Mask RCNN 学习笔记
涉及到的知识点补充:FasterRCNN:https://blog.youkuaiyun.com/wangyong1988/article/details/81064597 RoIPooling、RoIAlign:https://blog.youkuaiyun.com/wangyong1988/article/details/81064995 FPN:https://blog.youkuaiyun.com/wangyong1988/...
2018-07-16 15:01:31
811
1
原创 FPN 学习笔记
通常,利用网络对物体进行检测时,浅层网络分辨率高,学到的是图片的细节特征,深层网络,分辨率低,学到的更多的是语义特征。1)、通常的CNN使用如下图中显示的网络,使用最后一层特征图进行预测例如VGG16,feat_stride=16,表示若原图大小是1000*600,经过网络后最深一层的特征图大小是60*40,可理解为特征图上一像素点映射原图中一个16*16的区域;那这个是不是就表示,如果原图中有一...
2018-07-16 14:53:38
851
原创 RoIPooling、RoIAlign笔记
一)、RoIPooling 这个可以在Faster RCNN中使用以便使生成的候选框region proposal映射产生固定大小的feature map 先贴出一张图,接着通过这图解释RoiPooling的工作原理 针对上图 1)Conv layers使用的是VGG16,feat_stride=32(即表示,经过网络层后图片缩小为原图的1/32),原图80...
2018-07-16 14:48:04
1101
原创 Faster RCNN 学习笔记
下面的介绍都是基于VGG16 的Faster RCNN网络,各网络的差异在于Conv layers层提取特征时有细微差异,至于后续的RPN层、Pooling层及全连接的分类和目标定位基本相同.一)、整体框架我们先整体的介绍下上图中各层主要的功能1)、Conv layers提取特征图:作为一种CNN网络目标检测方法,FasterRCNN首先使用一组基础的conv+relu+pooling层提取inp...
2018-07-16 14:41:57
644
基于UGUI的DoozyUI插件系统
2022-11-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人