Joyce2564-优快云博客

原创【DataWhale|LLM】2.3主流模型架构以及新型架构

同时也有许多研究通过注意力研究中的上下文窗口实现对长文本的建模，目前主要有三种类型，并行上下文窗口、箭头型上下文窗口和词元选择，下面。通过递归分解当前时刻的输出，可以看到当前时刻的输出其实是对过去每一个时刻输入的卷积，因此参数化状态空间模型可以使用傅里叶变换实现高效卷积计算，极大的提高了计算效率。研究发现，虽然ALiBi编码在文本长度增加时，Perplexity可以保持稳定，但仍然无法保证在超出上下文窗口后对文本的理解能力，因此会出现检索准确率下降的情况。

2025-03-21 21:18:35 760

原创【DataWhale|LLM】2.1transformer架构及详细配置

注：因为本次课程中表格和公式比较多，因此比较多地引用到了课件中的图和内容，建议大家直接观看视频。

2025-03-20 23:22:18 969

原创【DataWhale|LLM】1.3GPT、DeepSeek模型介绍

GPT系列从18年开始系统迭代，对于大模型发展起到了深远影响2017年，谷歌提出Transformer架构2018年，OpenAI提出GPT，此时的GPT参数量还不算大，仅有1亿+2020年，GPT-3，1750亿参数2022年11月，ChatGPT（对话功能）这些系列模型迭代过程很漫长，包含对很多基础的探索，对大模型发展起到了深远影响。该团队在研究过程中展现了多个值得学习的方面：首先，他们具备广阔的，能够在技术发展的早期阶段就提出基于无监督预训练解码器架构的创新思路。

2025-03-17 21:19:21 962