
DL
文章平均质量分 94
草莓嘎嘎甜Yvonne
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[DL]ChatGLM3
ChatGLM3训练数据更多样、训练步数更充分、训练策略更合理,在语义、数学、推理、代码、知识等不同角度的数据集上表现出色,目前在44个中英文公开数据集测试国内第一。原创 2024-01-10 11:06:13 · 1533 阅读 · 0 评论 -
[DL]GLM模型解读
本文主要介绍了ChatGLM的基础模型GLM模型,其中包括模型的背景、基础结构、预训练任务及核心代码解读。原创 2023-12-14 15:03:00 · 2446 阅读 · 0 评论 -
[DL]ChatGPT背后的技术
ChatGPT是一个聚焦于对话生成的大模型,能够根据用户输入的文本描述,结合历史对话,产生相应的只能回复。GPT3模型通过对大量文本数据的学习,能够流畅的生成对话,但是有时候的回复并不符合预期,OpenAI认为生成的回复应该具备真实性、无害性和有用性。此外,GPT3主要限制在于缺乏复杂任务的推理能力,例如完成代码和解决数学问题。原创 2023-09-18 14:24:42 · 248 阅读 · 1 评论 -
[DL]大模型简介
从技术上讲,语言模型(LM)是提高机器语言智能的主要方法之一。语言建模的研究此前最受关注的是预训练语言模型(PLM),基于Transformer架构的系列模型的提出,极大地提高了 NLP 任务的性能。并确立了pretrain和fine-tune学习范式作为解决NLP任务的主要方法。然而随着2022年11月ChatGPT的发布,大语言模型(LLM),简称大模型开始进入公众视野,成为研究热点。简单来说,大模型就是扩展的PLM,扩展的是模型大小以及数据大小。原创 2023-09-18 14:19:48 · 1438 阅读 · 0 评论 -
[DL]CRF模型解读
CRF(conditional random field,条件随机场)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。想要理解CRF模型,需要先对概率图相关概念有所了解,并与HMM(Hidden Markov Model,隐马尔科夫模型)一起比较学习。(本文只解读思想、原理,不涉及求解过程)原创 2023-09-08 16:39:05 · 1582 阅读 · 0 评论 -
[DL]深度学习常用优化方法
本文仅对常用几种优化方法进行简要介绍,细节实现可以在论文中学习。原创 2023-09-04 20:41:07 · 321 阅读 · 0 评论 -
[DL]词向量
词向量是自然语言处理中的一种表示方法,用于将单词转换成数值向量。在传统的文本处理中,计算机难以理解和处理文字,因为它们是离散的符号,难以进行数学运算。词向量的出现解决了这个问题,它将单词映射到一个连续的向量空间中,使得单词的语义信息可以以数值形式进行表示和处理。原创 2023-08-22 11:09:39 · 569 阅读 · 0 评论 -
[DL]BERT模型解读
BERT(Bidirectional Encoder Representations from Transformers)模型在论文中提出,BERT即双向的Transformer的Encoder表示。pre-training:利用无监督的方式对语言模型进行预训练;fine-tuning:通过监督的方式在具体语言任务上进行fine-tuning。原创 2023-08-17 20:24:20 · 666 阅读 · 0 评论 -
[DL]Transformer模型解读
Transformer模型在论文中提出。Transformer中抛弃了传统的CNN和RNN,整个网络结构仅由self-Attenion和Feed Forward Neural Network组成。原创 2023-08-16 21:19:36 · 995 阅读 · 0 评论 -
[DL]Seq2Seq模型解读
Seq2Seq是一种重要的RNN模型,也称为 Encoder-Decoder 模型,可以理解为一种N×M的模型。原创 2023-08-15 20:39:24 · 127 阅读 · 0 评论 -
[DL]残差网络ResNet
残差网络的残差网络的基本组成单元是残差块,残差块结构如下图,残差块分成两部分直接映射部分和残差部分。原创 2023-08-15 19:41:59 · 147 阅读 · 0 评论 -
[DL]Layer Normalization
BN取的是不同样本的同一特征进行归一化,LN取的是同一个样本的不同特征进行归一化。原创 2023-08-15 16:08:57 · 71 阅读 · 0 评论 -
[DL]LSTM模型解读
LSTM起源于循环神经网络(Recurrent Neural Network,RNN)。RNN是一种用于处理序列数据的神经网络,它是根据人的认知是基于过往的经验和记忆这一观点提出的,即一个序列当前的输出与前面的输出也有关。原创 2023-08-10 19:28:49 · 278 阅读 · 0 评论 -
[DL]Batch Normalization
首先明确Batch Normalization的核心思想不是为了防止梯度消失或者过拟合,而是对数据空间/参数空间进行约束来增加鲁棒性,这种操作会带来一系列的性能改善,如加速收敛速度、保证梯度、缓解过拟合等。原创 2023-08-09 16:54:01 · 152 阅读 · 0 评论 -
[DL]Dropout原理解析
Dropout的作用就是在前向传播时,让某个神经元以在概率p下停止工作。这样可以避免模型过于依赖某些局部特征,增强泛化能力。原创 2023-07-13 14:13:03 · 774 阅读 · 0 评论 -
[DL]梯度消失和梯度爆炸
梯度消失和梯度爆炸是深度神经网络训练过程中常见的问题。想要真正了解问题发生的本质,需要明确反向传播过程。原创 2023-08-02 16:47:00 · 90 阅读 · 0 评论 -
[DL]常见的激活函数
深度学习中的激活函数是指用于神经网络中每个神经元的非线性变换函数。它的作用是将神经元的输入(加权和)映射到输出,并引入非线性来增强网络的表达能力和适应性,从而使神经网络可以更好地拟合复杂的非线性模式。激活函数的主要目的是在神经网络中引入非线性变换。如果没有使用激活函数,神经网络的每层都只是做线性变换,多层输入叠加后也还是线性变换。使用激活函数可以使神经网络具有一定的非线性表达能力,从而可以更好地拟合非线性模式,提升神经网络的性能。原创 2023-08-01 10:47:23 · 169 阅读 · 0 评论 -
[DL]Attention机制解读
Attention机制允许对依赖环境进行建模,不考虑它们在输入输出序列中的距离。原创 2023-06-29 14:20:07 · 399 阅读 · 0 评论 -
[DL]Bart模型解读
首先上述模型都是由transformer模型延伸而来的。GPT:是一种自回归( Auto-Regressive)的语言模型。Bert:是一种自编码(Auto-Encoding)的语言模型。Bart:结合了自回归和自编码模型。原创 2023-06-13 15:44:14 · 1410 阅读 · 0 评论 -
[DL]正则化为什么能降低过拟合程度
正则化即在损失函数中增加一个正则化项,该项可以看做是损失函数的惩罚项。是对损失函数中的某些参数做一些约束,使得参数的自由度变小。原创 2023-06-02 15:11:59 · 117 阅读 · 0 评论 -
[DL]过拟合与欠拟合
欠拟合:函数/模型过于简单无法学习到有效的数据规律,导致模型泛化能力较差,无法有效预测未知数据过拟合:函数/模型过于精确的拟合了边缘数据(特定数据),导致模型泛化能力较差,无法有效预测未知数据泛化能力(generalization ability)是指模型对未知数据(非训练集数据)的预测能力。原创 2023-06-01 11:27:52 · 188 阅读 · 0 评论