AI
文章平均质量分 81
生活需要深度
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ONNX小结
工作中一直会用到ONNX,抽时间对ONNX做了一些总结。ONNX是Open Neural Network Exchange的简称,创始人是贾扬清,从2017年由微软、facebook等几个公司联合推出,它定义了一个统一的中间格式,用以存储训练好的模型,这就使得不同的训练框架可以使用相同的中间格式进行交互,下图直观展示了这个目的:图1现在基本上主流的训练和推理框架都已经支持了ONNX,它作为一种中间格式,是使用的protobuf来存储网络模型,但使用protobuf有不少缺点,比如最大文件大小限制在2GB、文原创 2025-02-04 15:24:36 · 965 阅读 · 0 评论 -
终于有人把云边协同讲明白了
大数据时代的一个显著特点就是云端与边缘端的协同计算。通过边缘端与云端的协同计算,能够对众多的用户数据进行归纳以及推理,从而挖掘出更多的有用信息,而这些信息可以帮助决策者进行决策,减少风险。这些都离不开云计算与边缘计算。正如前面所述,云计算是一种基于云的计算方式,这里的云指的是通过网络连接的软硬件资源。依赖互联网,可以将各种共享的软硬件资源分配给多个计算机以及其他终端使用,这使得终端设备可以将耗费计算资源多的应用程序、计算过程放到云上进行,大大增加了终端设备的运行效率。原创 2024-11-17 22:06:08 · 5569 阅读 · 0 评论 -
AI新热点:边云协同:大模型结合小模型(大小模型联合推理)
它的思路是在某个生成的timestep,把自回归生成这个耗时的过程交给小模型(或者大模型的底下几层,我们统称为小模型),小模型采样生成几个候选序列,再把它们拼在一起输给大模型,让大模型选择language modeling概率最高的那个候选序列。它涉及利用预训练的大型模型来构建小数据集上的模型。用大模型去训练数据,然后用小模型去拟合大模型的输出,小模型可以学习大模型的知识(古已有之的线路是,以大模型为teacher对小模型进行知识蒸馏(KD),以期用更小的模型学会大模型涌现出的能力,提高推理效率)原创 2024-11-17 22:05:26 · 3609 阅读 · 0 评论 -
谷歌大佬谈 MLOps :机器学习中的持续交付和自动化流水线(上)
背景数据科学和机器学习正逐渐成为解决复杂现实问题以及在所有领域创造价值的核心功能。原创 2024-11-17 22:04:38 · 1278 阅读 · 0 评论 -
最新CTR预测服务的GPU优化实践
因此,我们设计了一个Batch分桶策略,生成N个固定Batch的优化模型,在实际请求到来时找到Batch距离最近的一个Bucket,将请求向上Padding到对应的Batch计算,从而提高了GPU的利用效率。算子层面:目前主流的深度学习框架,如TensorFlow和PyTorch,可以说是深度学习第二代框架,它们首先要解决第一代框架Caffe的问题,Caffe有一个明显问题就是Layer的粒度过粗,导致那个时代的算法开发者都必须有“自己写自定义层”的能力。在最终方案实现上,我们参考了TF-TRT的设计。原创 2024-09-08 19:38:03 · 981 阅读 · 0 评论 -
终于有人将机器学习中的重点做成了动画
深度学习是机器学习的一个子领域,深度学习通过神经网络模拟人脑神经元的连接来进行复杂数据的学习与预测。其中,卷积神经网络(CNN)主要用于计算机视觉任务;循环神经网络(RNN)则适用于处理序列数据。今天介绍CV和NLP领域一些重要模型。[RNN] 手书动画 ✍️输入序列X:[3,4,5,6]参数矩阵:参数矩阵是通过训练得到的,图中虽然列了4个节点,但其实是同一个节点按照时间步展开的,这也是RNN经常被误解的地方。原创 2024-08-19 20:53:32 · 998 阅读 · 0 评论 -
【深度学习必读】从YOLOv1到YOLOv10了解基于CNN的目标检测发展历程
采用逆时间顺序分析,本研究考察了YOLO算法引入的进步,从YOLOv10开始,到YOLOv9、YOLOv8和后续版本,探索每个版本在提高实时目标检测的速度、准确性和计算效率方面的贡献。YOLOv10 提供了多种模型变体,如 YOLOv10-N(Nano)、YOLOv10-S(Small)、YOLOv10-M(Medium)、YOLOv10-B(Balanced)、YOLOv10-L(Large)和 YOLOv10-X(Extra Large),以适应不同的计算约束和操作需求。原创 2024-08-19 20:49:42 · 1524 阅读 · 0 评论 -
深度学习快速入门--7天做项目
将跑出来的预测结果与真实值进行比较,在跑的时候不要害怕跑的次数太多(之前的师弟跑了50次就停了,结果模型就是一个类似于半圆,你让他收敛一会儿啊。另外,对于比较的结果记得用反归一化的结果,不要用还是之前归一化后的结果,这样的话容易看不出来真实比较的情况!另外,假如说数据中存在异常值(前面的时候异常值不考虑)或者空值(读取的时候会反应为NAN),这个我们后续都要对其进行处理的。数据往往是深度学习领域的必杀技,为了得到一个好的结果,一定要有一个不错的数据。将你的代码整理成一个完整的项目,不要给出多余的内容!原创 2024-08-06 11:02:50 · 404 阅读 · 0 评论 -
激活函数总结(四十):激活函数补充(AHAF、SERLU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。而且,在网络训练过程中,不停地更新参数会导致模型训练的复杂度呈现几何倍地增加,很难训练出合适的参数。可训练参数:在AHAF激活函数中,众多参数都是可训练的,可以在算法运行过程中自适应训练合适的参数。不受梯度消失的影响:提出的该激活函数克服了 σ ( x ) \sigma(x)σ(x) 激活函数中产生的梯度消失的影响。不是自适应函数,如果改为自适应函数,超参数的可变范围太大,训练起来较为困难。原创 2024-08-06 09:19:53 · 1110 阅读 · 0 评论 -
激活函数总结(三十九):激活函数补充(NFN、Hermite)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。最近的理论结果表明,尽管它们具有出色的实用性能,但在各种情况下,用基数展开(如多项式)进行替代可以从优化和泛化的角度产生显著的优势。遗憾的是,现有的结果仍局限于有几层的网络,这些结果的实际可行性尚不清楚。虽然我们在监督学习方面的实验没有给出明确的结论,但我们发现这种策略在半监督学习(SSL)/转导学习设置中具有相当大的优势。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!2.1 NFN激活函数。原创 2024-08-06 09:16:32 · 1019 阅读 · 0 评论 -
激活函数总结(三十八):激活函数补充(PDELU、CosLU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。通过灵活的映射形状,所提出的PDELU可以将激活响应的平均值推向接近于0的水平,从而保证深度神经网络训练时下降最为迅速。随着 t tt 的增大,负半轴的响应变得更大、更平坦,当 t = 1 t = 1t=1 时,PDELU与原ELU完全相同。在相关文献的的试验中表明PDELU的训练时间较长,而在不同分类模型中,不同激活函数的性能比较,PDELU在GoogleNet的性能最好,其它模型表现一般。使用的时候需要注意!原创 2024-08-06 09:14:33 · 864 阅读 · 0 评论 -
激活函数总结(三十七):激活函数补充(PAU、DELU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。由此产生的Padé激活单元(PAU)既可以近似常见的激活函数,也可以在提供紧凑表示的同时学习新的激活函数。平滑:这个函数使用了SiLU的左边部分,因此得到了一个位于零左边的缓冲区,这使得您可以从接近零的函数得到一个平滑的输出。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!Padé激活单元(PAU)既可以近似常见的激活函数,也可以在提供紧凑表示的同时学习新的激活函数。因此其实际效果有待验证。原创 2024-08-06 09:13:02 · 860 阅读 · 0 评论 -
激活函数总结(三十六):激活函数补充(ARiA、m-arcsinh)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。尽管如此,在 MLP 中,线性内核并不适合在非线性可分离数据中适当地利用梯度下降训练,但对于 SVM 来说,tanh 函数具有扩展的西格玛行为范围,可在此类数据中可靠地最大化边距宽度。因此,通过利用适合 MLP 的反双曲正弦函数(“arcsinh”)的双曲线性质与适合 SVM 的平方根函数的轻微非线性特性之间的加权交互效应,设计出了一种同时适合 SVM 和 MLP 的新函数。激活函数总结(三十六):激活函数补充。原创 2024-08-06 09:11:34 · 633 阅读 · 0 评论 -
激活函数总结(三十五):激活函数补充(KAF、Siren)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。KAF 激活函数的主要思想是将输入通过核函数进行映射,然后再应用标准的激活函数,从而实现更高维度的非线性变换。计算成本: 由于正弦函数涉及三角函数的计算,相对于某些简单的激活函数,Siren 可能具有较高的计算成本。核方法: 引入核函数的思想可以使神经网络具备核方法的一些优点,如处理高维数据和学习复杂的非线性函数。平滑性: 正弦函数是一个平滑的函数,可以提供平滑的非线性变换,有助于避免梯度消失问题。原创 2024-08-06 09:09:59 · 1231 阅读 · 0 评论 -
激活函数总结(三十四):激活函数补充(FReLU、CReLU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。而在funnel条件的情况下,它们依赖于空间条件。因此,pixel-wise condition使得网络具有像素化的建模能力,函数max(·)给每个像素提供了一个看空间背景或不看空间背景的选择。FReLU是专门为视觉任务而设计的,概念上很简单:ReLU的条件是一个手工设计的零值,PReLU的条件是一个参数化的px,对此FReLU将其修改为一个依赖于空间上下文的二维漏斗状条件,视觉条件有助于提取物体的精细空间布局。原创 2024-08-06 09:02:16 · 880 阅读 · 0 评论 -
激活函数总结(三十三):激活函数补充(QReLU、m-QReLU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。QReLU(Quantum ReLU )激活函数以定量的方式消除“死亡ReLU”的问题,即通过在以前的解为负的地方实现正解。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!m-QReLU(modified-QReLU)激活函数是利用量子叠加原理对QReLU的正负解进行叠加得到的。更少的超参数优化:利用QReLU或m-QReLU作为CNN中的激活函数可以最大限度地减少对CNN超参数优化的需求。原创 2024-08-06 08:56:32 · 827 阅读 · 0 评论 -
激活函数总结(三十二):激活函数补充(Serf、FReLU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!Serf (或称 Log-Softplus ERror)激活函数是一种属于 Swish 家族的激活函数,具有自正则化和非单调性的特点。预调节器:使得梯度更平滑且优化更快,如下公式所示,我们可以将Serf的一阶导数表示为swish的函数,p(x)是一个预调节器,可以使得梯度更加平滑。该激活函数较为简单,但是也因其简单的性质无法捕获复杂数据中的信息。原创 2024-08-05 09:30:08 · 825 阅读 · 0 评论 -
激活函数总结(三十一):激活函数补充(ELiSH、Hard ELiSH)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!Hard Exponential Linear Sigmoid SquasHing (Hard ELiSH)是基于 Swish 的启发提出的另一种激活函数。Exponential Linear Sigmoid SquasHing (ELiSH)是基于 Swish 的启发提出的一种激活函数。作为一种Swish激活函数的改进版本,在一定的领域有所应用。原创 2024-08-05 09:28:21 · 836 阅读 · 0 评论 -
激活函数总结(三十):激活函数补充(Logit、Softsign)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。Softsign 激活函数是一种平滑的非线性函数,类似于双曲正切(tanh)激活函数,但具有在输入接近零时的更大斜率。输出范围: Softsign 激活函数将输入映射到 [-1, 1] 范围内,可能不适用于所有问题,特别是需要输出范围在 [0, 1] 或其他不同范围的情况。导数的问题: 这个函数的导数存在问题,尤其是在接近 x=1 的情况下,导数可能变得非常大,可能会导致数值不稳定性。原创 2024-08-05 09:27:00 · 1020 阅读 · 0 评论 -
激活函数总结(二十九):激活函数补充(CoLU、ShiftedSoftPlus)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。根据使用不同激活函数对 CoLU 所做的实验,我们发现 CoLU 在深度神经网络中的表现通常优于其他函数。一个更大的负区间:与Swish 和 Mish 相比,CoLU激活函数有个更大的负值区间。平滑和非单调:激活函数的平滑性是可取的,因为可以计算函数的连续导数。解释性: 给定的激活函数的物理意义和行为可能不如 Mish 激活函数直观,这可能会影响对模型行为的解释和理解。原创 2024-08-05 09:25:42 · 396 阅读 · 0 评论 -
激活函数总结(二十八):激活函数补充(PSmish、ESwish)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。ParametricSmish(参数化Smish,PSmish)激活函数是在Smish激活函数的基础上,加上了两个参数 α 、 β \alpha、\betaα、β,进行可以对激活函数进行一定的调整,使其适配更多情况的模型。总的而言,虽然ESwish 激活函数具有良好的效果,但是还缺乏有效证明,且目前使用的并不多。总的而言,PSmish 激活函数具有良好的效果,但是目前使用的并不多。原创 2024-08-05 09:24:19 · 1052 阅读 · 0 评论 -
激活函数总结(二十七):激活函数补充(Multiquadratic、InvMultiquadratic)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。InvMultiquadratic 激活函数是 Multiquadratic 激活函数的一种变体,在Multiquadratic 激活函数的基础上进行了求倒数的操作。到此,使用 激活函数总结(二十七) 已经介绍完毕了!平滑性: 这个激活函数是平滑的,具有连续可微性,这在使用基于梯度的优化算法进行训练时是有利的。适应能力: 通过调整参数 x 和 y,可以调整激活函数的形状,使其适应不同的数据分布和模式。原创 2024-08-05 09:18:36 · 371 阅读 · 0 评论 -
激活函数总结(二十六):激活函数补充(Probit、Smish)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。概率解释: Probit激活函数的输出类似于一个累积分布函数,这使得它在处理概率相关问题时更具有解释性。非单调性:一个好的激活函数不应该诱导梯度的消失,并且允许少量的负值发挥正则化效应。梯度消失: 尽管Probit激活函数可以一定程度上缓解梯度消失问题,但在某些情况下,仍然可能遇到梯度消失的困扰。计算复杂性: 计算标准正态分布的累积分布函数通常需要特殊的数值计算方法,这可能会增加模型的计算成本。原创 2024-08-05 09:17:11 · 575 阅读 · 0 评论 -
激活函数总结(二十五):激活函数补充(CosReLU、SinReLU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。总的来说,CosReLU在引入周期性非线性方面与传统的激活函数不同,但是既不跟传统周期性激活函数一样也不跟Relu的别的改进相似。周期性影响: 由于余弦函数的周期性,CosReLU可以对周期性的模式或数据具有较好的适应性,适用于某些任务,如音频处理等。参数调整: CosReLU中没有像其他激活函数(如ReLU)中的参数,因此可能对于不同的任务和数据,效果会有所限制。激活函数总结(二十五):激活函数补充。原创 2024-08-05 09:15:49 · 544 阅读 · 0 评论 -
激活函数总结(二十四):激活函数补充(SquaredReLU、ModReLU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!不同iable(不可导)点: 尽管在大部分区域内可导,但在 ∣x∣+b=0 的点上是不可导的,这可能影响一些依赖于导数的优化算法或操作。额外的超参数: 这个激活函数引入了额外的超参数 b,而且对于不同的任务和模型,可能需要仔细调整这个参数。可能出现梯度爆炸: 在正值区间,平方线性整流单元的梯度是 2x,在 x 较大时,可能导致梯度爆炸问题。原创 2024-08-05 09:14:29 · 1085 阅读 · 0 评论 -
激活函数总结(二十三):激活函数补充(Piecewise Linear Unit、CLL)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。灵活性: “Piecewise Linear” 激活函数允许在不同区间内使用不同的线性函数,从而适应不同的数据模式和分布。适用于极端稀疏数据: CLL 激活函数适用于具有极端稀疏性的数据,这种情况下其他激活函数可能表现不佳。逼近复杂性: 通过合理设置划分区间和线性函数的参数,这种激活函数能够逼近一些复杂的非线性特性。计算开销: 需要根据划分区间的数量执行不同的线性函数计算,可能在计算上增加一定的开销。原创 2024-08-05 09:12:59 · 763 阅读 · 0 评论 -
激活函数总结(二十二):激活函数补充(Soft Exponential、ParametricLinear)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。ParametricLinear 激活函数是一种具有可调节斜率的简单激活函数,它仅仅在一些简单任务和具有可解释性要求的场景中可能会有一定的应用。灵活性: 由于参数 α 的存在,Soft Exponential 激活函数在不同的区域内可以具有不同的非线性特性,使其更具灵活性。ParametricLinear激活函数是一种线性激活函数,它引入了可学习的参数 a,以调整输出的斜率。原创 2024-08-05 09:11:12 · 461 阅读 · 0 评论 -
激活函数总结(二十一):激活函数补充(APL、Inverse Cubic)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。分段线性特性: APL 激活函数通过分段线性变换,允许在不同的输入范围内引入不同的线性特性,增加了网络的灵活性。复杂性: 这个激活函数的表达式非常复杂,包含多个数学运算,可能增加了计算的复杂性,尤其是在大规模的神经网络中。复杂性: APL 激活函数的数学表达式较为复杂,包含了多个参数和分段线性操作,可能增加了计算的复杂性。对称性: 激活函数的形式表现出一定的对称性,这可能在某些情况下对于数据建模具有一定的好处。原创 2024-08-05 09:09:48 · 604 阅读 · 0 评论 -
激活函数总结(二十):激活函数补充(SQNL、PLU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。总之,PLU 激活函数通过引入分段线性特性,同时保持一定的平滑性,旨在增加神经网络的非线性能力。PLU是一种类似于 ReLU 的激活函数,但在负半部分采用了分段线性变换,以引入更多的非线性性质。参数调节: 通过调整参数 α 和 c,可以控制 PLU 激活函数的斜率和平移,使其适应不同任务和数据分布。平滑性: 在输入范围内,PLU 是分段线性的,有助于梯度计算的稳定性,减少了梯度突变可能引发的问题。原创 2024-08-05 09:07:40 · 821 阅读 · 0 评论 -
激活函数总结(十九):激活函数补充(ISRU、ISRLU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。ISRLU 激活函数引入了一个可学习的参数,使得在输入为负时,激活函数的输出与输入之间存在非线性关系。计算复杂性: ISRLU 涉及平方根的计算,这可能在计算上相对于一些简单的激活函数(如 ReLU)而言较为复杂。可解释性: ISRLU 不是一个广泛使用的激活函数,因此可能需要更多的背景知识来解释其作用和效果。参数调整: 通过调整参数 α,您可以自由地控制激活函数的形状,使其适应不同的数据分布和任务需求。原创 2024-08-05 09:04:20 · 700 阅读 · 0 评论 -
激活函数总结(十八):激活函数补充(RBF、SQ-RBF)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。可解释性: 由于 SQ-RBF 并不是深度学习中最常见的激活函数,它的解释性可能相对较差,可能需要更多的背景知识才能理解其作用和效果。局部性质: 像传统的径向基函数一样,“SQ-RBF” 在中心附近具有较大的响应,这使得它具有一定的局部性质,适用于某些模式识别任务。计算复杂性: 计算 RBF 激活函数涉及指数计算,可能相对于一些简单的激活函数而言较为复杂,可能会影响训练和推理的速度。原创 2024-08-05 09:02:27 · 615 阅读 · 0 评论 -
激活函数总结(十七):激活函数补充(PELU、Phish)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。Parametric Exponential Linear Unit(PELU)是一种 Exponential Linear Unit(ELU)的变种激活函数,它引入了可学习的参数,允许网络自适应地调整激活函数的形状。计算复杂性: 相对于一些简单的激活函数(如 ReLU)而言,PELU 的计算复杂性较高,尤其是因为它涉及指数计算。平滑性: PELU 在负的输入范围内是平滑的,这有助于梯度计算和反向传播的稳定性。原创 2024-08-02 20:16:45 · 1050 阅读 · 0 评论 -
激活函数总结(十六):激活函数补充(SReLU、BReLU)
零输出: 在输入为奇数的情况下,Bipolar ReLU 的输出为零,这有助于网络对某些特定模式进行完全抑制,可能在某些任务中有用。参数选择: Bipolar ReLU 引入了一个额外的参数,即模数,需要根据任务和数据进行调整,可能需要更多的实验来找到最佳参数。计算复杂性: 与一些简单的激活函数(如 ReLU)相比,SReLU 涉及更多的参数和计算,可能在一些情况下导致计算复杂性增加。自适应性: 通过调整 SReLU 的平移参数,您可以根据数据的分布和任务需求对激活函数进行微调,使其适应不同的数据特性。转载 2024-08-02 20:15:08 · 1078 阅读 · 0 评论 -
激活函数总结(十五):振荡系列激活函数补充(SQU、NCU、DSU、SSU)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。使用振荡激活函数代替流行的单调或非单调单零激活函数,能使神经网络训练速度更快,并以更少的层数解决分类问题。到此,使用 激活函数总结(十五) 已经介绍完毕了!如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!最后,对于文章中没有提及到的激活函数,大家可以通过评论指出,作者会在后续的文章中进行添加补充。当前该系列振荡激活函数很少使用,较为常用的为GCU和ASU振荡激活函数。原创 2024-08-02 20:13:24 · 1057 阅读 · 0 评论 -
激活函数总结(十四):激活函数补充(Gaussian 、GCU、ASU)
Gaussian 激活函数通常指的是基于高斯函数(正态分布函数)的激活函数。这个激活函数使用高斯分布的形状,当输入 x xx 趋近于0时,激活值逐渐趋近于1,而在 x xx 远离0时,激活值迅速趋近于0。GCU是一种振荡型非单调激活函数,它打破了激活函数领域的传统,使激活函数领域发生了革命性的变化。计算复杂性: 相对于一些传统的激活函数,GCU 激活函数的计算可能稍复杂,可能在大规模网络中影响训练速度。计算复杂性: 相对于一些传统的激活函数,ASU激活函数的计算可能稍复杂,可能在大规模网络中影响训练速度。原创 2024-08-02 20:11:37 · 886 阅读 · 0 评论 -
激活函数总结(十三):Tanh系列激活函数补充(LeCun Tanh、TanhExp)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。TanhExp激活函数是一种用于轻量级神经网络的具有高收敛速度的平滑激活函数,在不增加网络规模的情况下,只需要少量的训练周期和不增加额外参数,TanhExp就可以提高轻量级神经网络的容量。缓解梯度爆炸问题: LeCun Tanh 函数通过对双曲正切函数进行缩放和平移,将输出范围限制在 [-1.7159, 1.7159],相比标准双曲正切函数的 [-1, 1] 范围,有助于缓解梯度爆炸问题,使得训练更加稳定。原创 2024-08-02 20:09:57 · 1099 阅读 · 0 评论 -
激活函数总结(十二):三角系列激活函数补充(Sinusoid、Cosine、Arcsinh、Arccosh、Arctanh)
Sinusoid(正弦)激活函数是一种周期性激活函数,它使用正弦函数来将输入映射到输出,输出范围在 -1 到 1 之间,具有周期为 [-2π,2π]。只有周期性特性: 正弦激活函数的周期性特性也可能成为缺点,因为它会限制神经网络的能力,使其难以处理非周期性的数据特征(在不同的周期内的输出会有类似的值)。这里Cosine激活函数的优缺点同Sinusoid激活函数!计算复杂性: 计算正弦函数可能会比其他一些常见的激活函数更加耗时,尤其是在大规模的神经网络中,这可能会影响模型的训练和推理速度。原创 2024-08-02 20:07:17 · 2703 阅读 · 0 评论 -
激活函数总结(十一):激活函数补充(Absolute、Bipolar、Bipolar Sigmoid)
在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。在输入为正时,输出仍然是输入值。虽然Bipolar Sigmoid 在理论上具有比Sigmoid更好的效果,但是结合Sigmoid系列整体的激活函数而言,这是微不足道的!缺乏灵活性:绝对值激活函数是非常简单的线性函数,它没有类似于Sigmoid、ReLU等激活函数引入的非线性特性。信息损失: 由于绝对值激活函数直接舍弃了输入的符号信息,它可能无法区分正负值对任务的影响,这可能导致在某些情况下丢失有用的信息。原创 2024-08-02 20:05:34 · 1115 阅读 · 0 评论 -
激活函数总结(十):激活函数补充(Identity、LogSigmoid、Bent Identity)
在前面的文章中已经介绍了介绍了一系列激活函数 (Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、Swish、ELU、SELU、GELU、Softmax、Softplus、Mish、Maxout、HardSigmoid、HardTanh、Hardswish、HardShrink、SoftShrink、TanhShrink、RReLU、CELU、ReLU6、GLU、SwiGLU、GTU、Bilinear、ReGLU、GEGLU、Softmin、Softmax2d、Logsoftmax)。原创 2024-08-02 20:03:48 · 1059 阅读 · 0 评论 -
激活函数总结(九):Softmax系列激活函数补充(Softmin、Softmax2d、Logsoftmax)
在前面的文章中已经介绍了介绍了一系列激活函数 (Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、Swish、ELU、SELU、GELU、Softmax、Softplus、Mish、Maxout、HardSigmoid、HardTanh、Hardswish、HardShrink、SoftShrink、TanhShrink、RReLU、CELU、ReLU6、GLU、SwiGLU、GTU、Bilinear、ReGLU、GEGLU)。到此,使用 激活函数总结(九) 已经介绍完毕了!原创 2024-08-02 20:01:48 · 1962 阅读 · 0 评论
分享