
深度学习
文章平均质量分 70
深度学习
强化学习曾小健
"强化学习曾小健2、AI生成曾小健2、我是机器人曾小健具身"都是该号副号。优快云全站百强博客、总近450w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、AI相关技术、机器人具身智能技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
[Pytorch源码解析] 之 交叉熵损失class CrossEntropyLoss(_WeightedLoss):
下面是对给定代码逐行的解释:python复制python复制python复制intfloatpython复制__init__weightTensorNoneNone-100reduceNonereduction'mean'0.0python复制weightreducereductionpython复制python复制python复制forwardinputtargetTensorTensorpython复制forwardinputtargetweightreductionpython。原创 2024-05-18 14:53:51 · 1359 阅读 · 0 评论 -
模型输出的概率打分
Histogram binning是一种比较简单的校准方法,根据初始预测结果进行排序后分桶,每个桶内求解一个校准后的结果,落入这个桶内的预测结果,都会被校准成这个值。文中作者提出,上面融合过程中对label的融合对取得校准效果好的预测结果是非常重要的,这和上面提到的label smoothing思路比较接近,让label不再是0或1的超低熵分布,来缓解模型过自信问题。后处理校准方法指的是,先正常训练模型得到初始的预测结果,再对这些预测概率值进行后处理,让校准后的预测概率更符合真实情况。又该如何进行校准呢?原创 2023-07-05 13:53:20 · 566 阅读 · 0 评论 -
过拟合产生的原因
模型出现过拟合现象的原因发生过拟合的主要原因可以有以下三点:(1)数据有噪声(2)训练数据不足,有限的训练数据(3)训练模型过度导致模型非常复杂(1)数据有噪声为什么数据有噪声,就可能导致模型出现过拟合现象呢?所有的机器学习过程都是一个search假设空间的过程!我们是在模型参数空间搜索一组参数,使得我们的损失函数最小,也就是不断的接近我们的真实假设模型,而真实模型只有知道了所有的数据分布,才能得到。往往我们的模型是在训练数据有限的情况下,找出使损失函数最小的最优模型,然原创 2021-11-11 12:31:13 · 71 阅读 · 0 评论 -
2021-08-27 BERT4Rec简介
1. BERT4Rec简介根据用户历史的行为,对用户动态的偏好进行建模,对于推荐系统来说是有挑战的和重要的。之前的算法使用序列神经网络从左向右地编码用户的历史交互信息为隐含表示,进而进行推荐,因此只利用了单向的信息进行建模。尽管它们是有效的,但由于存在以下限制,我们认为这种从左到右的单向模型是次优的:单向结构限制了用户行为序列中隐藏表示的能力; 之前的序列神经网络经常采用严格有序的序列,这并不总是可行的;为了解决这些限制,我们提出了一个称为BERT4Rec的序列推荐模型,该模型采用深层的双向自注原创 2021-08-27 11:05:04 · 769 阅读 · 0 评论 -
XLNET详解
xlnet作为bert的升级模型,主要在以下三个方面进行了优化采用AR模型替代AE模型,解决mask带来的负面影响 双流注意力机制 引入transformer-xl 排列语言模型PLM在下文中,我将会为大家详细介绍这三个优化点集成Transformer-XL除了上文提到的优化点,作者还将transformer-xl的两个最重要的技术点应用了进来,即相对位置编码与片段循环机制。我们先看下片段循环机制。片段循环机制transformer-xl的提出主要是为了解决超长序列的依赖原创 2021-08-26 17:24:02 · 906 阅读 · 0 评论 -
XLNet 和BERT的区别是什么?
XLNet 和BERT的区别是什么?与AR语言模型不同,BERT被归类为自动编码器(AE)语言模型。AE语言模型的目的是从损坏的输入中重建原始数据。损坏的输入意味着我们使用在训练前阶段将原始token替换为[MASK]。我们的目标是预测into来得到原来的句子。AE语言模型的优点是它可以在向前和向后两个方向上看到上下文。但是AE语言模型也有其不足之处。它在预训练中使用了[MASK],但是这种人为的符号在finetune的时候在实际数据中时没有的,导致了预训练 — finetune..原创 2021-08-26 17:11:20 · 451 阅读 · 0 评论 -
2021-08-26BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
图 1:BERT 的整体预训练和微调程序。 除了输出层,相同的架构用于预训练和微调。 相同的预训练模型参数用于为不同的下游任务初始化模型。 在微调期间,所有参数都被微调。 [CLS] 是在每个输入示例前添加的特殊符号,[SEP] 是特殊的分隔符标记(例如分隔 问题/答案)Figure 1: Overall pre-training and fine-tuning procedures for BERT. Apart from output layers, the same archit...原创 2021-08-26 16:48:45 · 320 阅读 · 0 评论 -
peleeNet
1、Pelee分类网络PeleeNet是一种基于Densenet的轻量化网络变体(variant),主要面向移动端部署。分类网络的结构改进包括以下五点:1)Stem Block:实现输入图像空间维度的第一次降采样(stride=2)和通道数的增加。并且在不增加较多计算量的前提下,该模块能够确保较强的特征表达能力:2)Two-Way Dense Layer:受Inception结构的启发,由两路分别捕捉不同尺度感受野信息的网络分支构成。第一路经过一层1x1卷积完成bottleneck之.原创 2021-08-10 13:23:59 · 718 阅读 · 0 评论