
AI大模型
文章平均质量分 87
橙蚊镜0819
Step by step becoming an architect
展开
-
大模型(四)transformer 编码器与解码器
在多头自注意力机制完成信息聚合后,Feed Forward网络进一步对聚合后的信息进行处理,以实现更深层次的语义理解。早期编码器解码器的核心计算模块是循环神经网络(RNN),后来被注意力机制+神经网络替换。原始输入向量经过Wq、Wk、Wv三个神经网络变换,分别得到新的Q、K、V向量。以GPT3为例的96层数据聚合,每一层都包含。把后面的信息掩住,只往前看 不看后面的信息。原创 2025-04-14 17:53:52 · 822 阅读 · 0 评论 -
大模型(三)transformer 概述
输入少了来自编码器输出的上下文向量,但是这些内容仍需要存储,所以将上下文和已经输出的回答放在一起存储,采用一个特殊的token区分。前文:prompt,回答:response。采用最后一个字为出发点得到的向量去对比50257个词表中对比相似度,因为这些都在12288的向量维度中,得到50257个相似度的值。由于解码也具有读懂复杂句子的能力,且能够自回归的回答,所以很多大模型都采用。相当于基于前文生成后文,也就和预训练阶段一致,无对话任务。把50257个相似度转化为概率。原创 2025-04-07 17:09:58 · 857 阅读 · 0 评论 -
大模型(二)神经网络
模型是一个由输入和输出构成的系统。只要有模型,就一定有输入和输出。明确数学公式: 这类公式是明确的,当输入数据时,会进行明确的数据计算需学习与训练: 这类公式不那么明确,需要通过学习和训练来明确,如神经网络和机器学习融合两类公式: 真实的模型往往是融合了明确数学公式和需学习的公式。设计一个符合场景的公式模型的参数此模型接受图片作为输入,输出结果为概率MNIST数据库中有7万张手写的数字图片,从0-9,其中6万张用于训练,1万张用于测试。原创 2025-04-03 16:56:33 · 455 阅读 · 0 评论 -
大模型(一)预训练+微调的训练范式
用途: 使用大量训练数据,通过标准的语言建模目标,最大化给定上下文的似然估计,从而训练模型。原创 2025-04-01 16:57:49 · 776 阅读 · 0 评论