
神经网络模型结构
文章平均质量分 78
主要介绍,具有里程碑的网络结构,
并且实现这些网络结构的代码
ZhengXinTang
习重要! 学而实习之, 才叫学习!
只学而不习, 不实践, 这叫本末倒置, 丢了大头顾小头;
因缘际会,所有巧合即为 和合事物;
当一个人悄悄的在反省时,努力时,改过时, 命运的齿轮便被他转动了。
展开
-
Google研究院健康AI团队于近日推出了全新的开源模型套件
在人工智能快速发展的今天,AI在医疗领域展现出巨大潜力。为了让更多开发者能够投身医疗AI创新,Google推出的HAI-DEF提供了开源权重模型、教学用Colab笔记本以及全面的开发文档,这些资源覆盖了从早期研究到商业化的各个阶段。为了让更多开发者能够投身医疗AI创新,Google推出的HAI-DEF提供了开源权重模型、教学用Colab笔记本以及全面的开发文档,这些资源覆盖了从早期研究到商业化的各个阶段。这不仅将帮助开发者更容易地进入这个领域,更重要的是,它将推动医疗AI技术的快速发展,最终造福更多患者。转载 2024-12-05 13:45:42 · 154 阅读 · 0 评论 -
MoE 论文阅读OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER
原文出处Moe,是Mixture-Of-Experts的缩写,可以在保证运算速度的情况下,将模型的容量提升>1000倍。MoE(Mixture of Experts)层包含一个门网络(Gating Network)和n个专家网络(Expert Network)。对于每一个输入,动态地由门网络选择k个专家网络进行激活。在具体设计中,每个输入x激活的专家网络数量k往往是一个非常小的数字。比如在MoE论文的一些实验中,作者采用了n=512,k=2的设定,也就是每次只会从512个专家网络中挑选两个来激活。转载 2023-12-18 18:53:46 · 1621 阅读 · 1 评论 -
门控融合网络 (GFN) 和混合专家 (MoE)
门控融合网络 (GFN) 和混合专家 (MoE) 都是神经网络中使用的架构,特别是用于处理需要组合来自多个来源或模型的信息的复杂数据和任务。原创 2023-12-14 11:34:52 · 12019 阅读 · 0 评论 -
InceptionNext网络分析
摘要论文翻译:https://wanghao.blog.youkuaiyun.com/article/details/131347001?spm=1001.2014.3001.5502 官方源码:https://github.com/sail-sg/inceptionnext这是一篇来自颜水成团队的论文。作者提出InceptionNext,将大核深度卷积分解为沿通道维度的四个平行分支,即小方形核、两个正交带核和一个单位映射。通过这种新的Inception深度卷积,构建了一系列网络,不仅享有高吞吐量,而且保持有竞争力的性翻译 2023-11-11 20:28:42 · 306 阅读 · 0 评论 -
ResXt网络实现
即在 bottle Neck 模块的基础上, 实现了每个模块的多分支的并行结构;2.2 网络结构2. 自主构建的网络主要的结构,是前期使用了inverted_residual 结构,目的是为了不让各个通道之间的信息,交流。保持原始的通道信息,这样一直到ResXt的网络结构时, 才开始通道交融;该网络,由于采用了多分支并行的结构,导致了该网络不能够搭建的很深在( 2, 9, 576, 600) 的情况下,占用了20G的显存, 100G的 内存;原创 2023-03-28 09:23:43 · 312 阅读 · 0 评论 -
Residual_残差模块
残差的模块的实现有两种方式,一种使用两层相同 conv3x3 实现的, 即此时卷积核的大小是相同的;另外一种方式, 两边使用conv1x1 实现, 中间使用 conv3x3, 这种也成为bottleNeck,原文中提出了两种block,如上图,左边的称作basic block,右边的称为bottle neck。结构都是在卷积层后面,添加一跳short cut,将输入与卷积层组的输出相加。原创 2023-03-28 17:14:49 · 1947 阅读 · 0 评论 -
deep a wavelet 深度自适应小波网络
提升方案,也称为第二代小波[25],是定义与第一代小波[6]具有相同属性的小波的一种简单而强大的方法。提升方案将信号x作为输入,生成小波变换的近似分量C, 和细节分量d 这两类子带作为输出。设计这样的提升方案由三个阶段[4]组成,如下所示。2.updater, 更新器, 这个阶段会考虑频域中的分离, 期待的效果是,找到一个近似分量C 使其与输入信号有相同的running average;为了获得这样的效果, 近似分量C = 应该可以通过信号的偶数分量,+ 奇数分量通过U 更新器。原创 2023-07-23 11:23:44 · 790 阅读 · 0 评论 -
One-Class Convolutional Neural Network
提出了一种基于卷积神经网络(CNN)的单类分类方法。其思想是使用潜在空间中的零中心高斯噪声作为伪负类,并使用交叉点损失来训练网络,以学习给定类的良好表示和决策边界。该方法的一个重要特点是,任何预先训练好的CNN都可以作为一个类分类的基本网络。本文提出的One Class CNN(OC-CNN)在UMDAA-02 Face,Abariity1001,FounderType-200数据集上进行了评估。这些数据集涉及各种单类应用问题,如用户身份验证、异常检测和新颖性检测。...翻译 2022-08-04 21:15:47 · 4071 阅读 · 3 评论 -
axial attention 轴向注意力
Medical Transformer: Gated Axial-Attention for Medical Image Segmentation论文解读:https://zhuanlan.zhihu.com/p/4086629471.2 添加了门控单元的轴注意力网络在门控轴注意力网络中, 1. 将axial attention layers 轴注意力层 全部换成门控轴注意力层。2. Medical TransformerLoGo network:在局部 + 全局的网络中:使用的是原创 2023-04-11 18:41:40 · 2809 阅读 · 0 评论 -
resizer_model
文章主题思想,使用网络进行学习,来调整输入图片的大小。原创 2023-04-10 15:20:51 · 125 阅读 · 0 评论 -
ResXt网络实现
即在 bottle Neck 模块的基础上, 实现了每个模块的多分支的并行结构;原创 2023-03-25 16:19:52 · 121 阅读 · 0 评论 -
mobileNet_v2_v3 网络代码实现与网络结构
首先说明一下ReLU6,卷积之后通常会接一个ReLU非线性激活,在Mobile v1里面使用ReLU6,ReLU6就是普通的ReLU但是限制最大输出值为6(对输出值做clip),这是为了在移动端设备float16的低精度的时候,也能有很好的数值分辨率,如果对ReLU的激活范围不加限制,输出范围为0到正无穷,如果激活值非常大,分布在一个很大的范围内,则低精度的float16无法很好地精确描述如此大范围的数值,带来精度损失。根据经验表明,当输入的通道小于输出的通道时删除最后的激活函数是正确的。原创 2023-03-20 17:44:19 · 876 阅读 · 0 评论 -
vit 中的 cls_token 与 position_embed 理解
1. cls_token()Class Token假设我们将原始图像切分成 [公式] 共9个小图像块,最终的输入序列长度却是10,也就是说我们这里人为的增加了一个向量进行输入,我们通常将人为增加的这个向量称为 Class Token。那么这个 Class Token 有什么作用呢?我们可以想象,如果没有这个向量,也就是将 [公式] 个向量输入 Transformer 结构中进行编码,我们最终会得到9个编码向量,可对于图像分类任务而言,我们应该选择哪个输出向量进行后续分类呢?因此,ViT算法提出了一个可原创 2022-05-09 11:02:18 · 28556 阅读 · 3 评论 -
10.6 自注意力和位置编码
在深度学习中,我们经常使用卷积神经网络(CNN)或循环神经网络(RNN)对序列进行编码。 想象一下,有了注意力机制之后,我们将词元序列输入注意力池化中, 以便同一组词元同时充当查询、键和值。 具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。 由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention) [Lin et al., 2017b][Vaswani et al., 2017], 也被称为内部注意力(intra-attention) [Cheng et al.,原创 2022-04-19 21:15:30 · 982 阅读 · 0 评论 -
Swin transformer 简单理解
但其原生Self-Attention 的计算复杂度问题一直没有得到解决,Self-Attention 需要对输入的所有N个 token 计算 [公式] 大小的相互关系矩阵,考虑到视觉信息本来就就是二维(图像)甚至三维(视频),分辨率稍微高一点这计算量就很难低得下来。Swin Transformer 想要解决的计算复杂度的问题。1. 网络结构简单来说就是,原生 Transformer 对 N 个 token 做 Self-Attention ,复杂度为O(N2)O(N^2)O(N2) ,Swin .原创 2022-04-23 21:03:52 · 1992 阅读 · 1 评论 -
self attention(上)_ 自注意力结构解读_by Li 弘毅
seqseq for syntactic Parsing:用于文法解析, “ Grammar as Foreign Language ” 14 年;for Muli label calssifiction: 即 一个对象 它同时属于多个标签;for Object Detectiono;Encode - self attention注意, 这里每一个Block 是模型中多个 Layer 所做的事情;A, B残差 相加 得到C这里的输出的第二行中每一原创 2022-04-01 16:43:47 · 1486 阅读 · 0 评论 -
self_attention(下)自注意力机制
1. self-attention中的矩阵乘法1.1 Q, K, V矩阵输入的列向量 aia^iai 拼接成矩阵;每一个输入向量自身 aia^iai 与矩阵wqw^qwq 相乘, 便会得到:qiq^iqi 向量;qi=Wqaiq^i = W^q a^iqi=Wqai;现在将各个输入列向量 aia^iai, 比方说 a1a^1a1a2a^2a2 a3a^3a3a4a^4a4 这四个向量拼接成一个矩阵, 记做矩阵 III;那么之前得到的各个输出向量 qiq^iqi, 比方说 q1q^1q1q2原创 2022-04-04 22:05:33 · 1425 阅读 · 0 评论 -
深度可分离卷积
Depthwise(DW)卷积与Pointwise(PW)卷积,合起来被称作Depthwise Separable Convolution(参见Google的Xception),该结构和常规卷积操作类似,可用来提取特征,但相比于常规卷积操作,其参数量和运算成本较低。所以在一些轻量级网络中会碰到这种结构如MobileNet。原创 2023-03-20 16:20:34 · 366 阅读 · 0 评论 -
VIT 简单理解
关键思想:是将图片划分成多个 patches,将patches 展平后, 便成为了一个序列;将这个序列 加入位置编码后,再输入到 Encoder中;假设输入图片大小是256x256,如果打算分成64个patch,那么每个是32x32大小。vit在使用的时候会将patch使用cnn进行编码然后得到768的通道,然后拉伸成N*768的输入向量。在这个过程中可以分成两种model一种是patch embedding另一种是hybrid结构,两者的区别大致在于patch embedding采用了卷.原创 2022-04-23 20:25:07 · 13625 阅读 · 0 评论 -
Transformer 中 Encoder 结构解读_by 弘毅
3.seqseq for syntactic Parsing:用于文法解析, “ Grammar as Foreign Language ” 14 年;for Muli label calssifiction: 即 一个对象 它同时属于多个标签;for Object Detectiono;Encode - self attention注意, 这里每一个Block 是模型中多个 Layer 所做的事情;A, B残差 相加 得到C这里的输出的第二行原创 2022-04-06 15:05:28 · 4535 阅读 · 0 评论 -
10.3注意力的评价函数
1. 核回归的注意力函数最开始时的 key, query :key 代表从原始多个输入xi 中, 从事物自身本来所固有的某一个属性(或多个属性上)上提取出来的特征, 这些特征可以抽象的表示原始输入;query: 人脑的意识作用下提炼出来的一种属性特征,后来 key , query 演化成:key 代表从原始输入x 中, 从事物自身本来所固有的某一个属性(或多个属性上)上提取出来的特征, 这些特征可以抽象的表示原始输入;query: (即可以是人脑的意识作用下, 也可以是机器原创 2022-04-18 17:59:11 · 2130 阅读 · 0 评论 -
Tranformer论文阅读_limu
1. Transformer 架构基于编码器解码器的 来处理序列对;Transformer 是 单纯基于注意力;1. 1 多头注意力对同一个key, value, query 希望抽取不同的信息;比如 短距离, 和 长距离关系1. 2 有掩码的多头注意力1. 3 基于位置的前馈网络全连接层1. 4 层归一化1. 5 信息传递1. 6 预测1.8 小结Transformer 整个网络 是一个 纯使用注意力的 编码- 解码器每个 编码器- 解码器 都有n 个 tra原创 2022-04-10 20:46:07 · 2423 阅读 · 0 评论 -
ch10.1 注意力机制的生物起源
文章参考,动手学深度学习;10.1 生物学中的注意机制10.1.1 影响注意力的 两种因素人类的自注意力会受到两种因素的影响:非自主性提示: 通常是由外界的因素主导,比如基于环境中物体的突出性和易见性。自主性提示: 收到人类自身意识的控制, 比如自己已有的习性,过往的认知 和 自身意识的主动控制, 从而注意力在收到自主性提示 去选择时, 更为谨慎;基于以上两种因素, 从而选择了注意力的焦点,非自主性提示: 想象一下,假如你面前有五个物品: 一份报纸、一篇研究论文、一杯咖啡、原创 2022-04-12 09:27:57 · 2642 阅读 · 2 评论 -
Conformer_ 音频任务
音频任务前言:使用 filter Bank output 作为特征, 作为首选;Mel sepctgram;conformer绝对位置编码,相对位置编码选择相对位置编码;将 tranformer 中的 FC 拆成两个部分,分别放在 上下 两个部位;中间加入CNN 模块...原创 2022-04-10 20:46:44 · 381 阅读 · 0 评论 -
10.2注意力汇聚
原文链接下面为学习记录1. 生成数据集2. 输出值平均池化3. 注意力汇聚核回归方法3.1 无参数的核回归方法:注意这里测试数据的输入相当于查询,而训练数据的输入相当于键, 训练数据的输出相当于值。 由观察可知“查询-键”对越接近, 注意力汇聚的注意力权重就越高。如果一个已经存在的键 xix_ixi 越是接近给定的查询 xxx ,那么分配给这个键对应值yiy_iyi 的注意力权重就会越大, 也就“获得了更多的注意力”。这种方式, 注意力权重越大的 yiy_iyi, 则原创 2022-04-21 16:50:23 · 1260 阅读 · 0 评论 -
Transformer 中 Decoder 结构解读_by 弘毅
Transformer 中 Decoder 结构解读DECODER D 的输出 一个 一个 产生的,decoder 中看到当前输入是 , decoder 在前一个时间点的输出;decoder 会将自己的输出 当做接下来的 输入;此时, 先暂时忽略 Decoder 中 来自 encoder 的输入;训练的时候 误差 采用 minize cross entropy;测试的时候 的 误差 BLUe scoreMasked self attention :只考虑输入向量本身, 以及输入向量的原创 2022-04-08 11:58:02 · 14924 阅读 · 0 评论 -
conv2d.中 groups 参数
使用groups前后,并不改变卷积核的个数,改变的是每个卷积核中通道数;即普通的卷积核中, 每个卷积核中通道数 = 输入特征的通道数;使用groups, 每个卷积核中通道数变成 = 输入的通道数/ groups;卷积核的个数保持原来不变。原创 2023-03-20 20:39:12 · 1113 阅读 · 0 评论