- 博客(7)
- 收藏
- 关注
原创 【DataWhale|LLM】2.3主流模型架构以及新型架构
同时也有许多研究通过注意力研究中的上下文窗口实现对长文本的建模,目前主要有三种类型,并行上下文窗口、箭头型上下文窗口和词元选择,下面。通过递归分解当前时刻的输出,可以看到当前时刻的输出其实是对过去每一个时刻输入的卷积,因此参数化状态空间模型可以使用傅里叶变换实现高效卷积计算,极大的提高了计算效率。研究发现,虽然ALiBi编码在文本长度增加时,Perplexity可以保持稳定,但仍然无法保证在超出上下文窗口后对文本的理解能力,因此会出现检索准确率下降的情况。
2025-03-21 21:18:35
760
原创 【DataWhale|LLM】2.1transformer架构及详细配置
注:因为本次课程中表格和公式比较多,因此比较多地引用到了课件中的图和内容,建议大家直接观看视频。
2025-03-20 23:22:18
969
原创 【DataWhale|LLM】1.3GPT、DeepSeek模型介绍
GPT系列从18年开始系统迭代,对于大模型发展起到了深远影响2017年,谷歌提出Transformer架构2018年,OpenAI提出GPT,此时的GPT参数量还不算大,仅有1亿+2020年,GPT-3,1750亿参数2022年11月,ChatGPT(对话功能)这些系列模型迭代过程很漫长,包含对很多基础的探索,对大模型发展起到了深远影响。该团队在研究过程中展现了多个值得学习的方面:首先,他们具备广阔的,能够在技术发展的早期阶段就提出基于无监督预训练解码器架构的创新思路。
2025-03-17 21:19:21
962
原创 【DataWhale|LLM】1.2大模型技术基础
扩展定律奠定了早期大模型的技术路线,产生了巨大的性能提升数据数量、数据质量以及配制方法极其关键需要建立可预测、可扩展的大规模训练架构预训练后可以通过微调、对齐、提示工程等技术进行能力激活需要设计对齐技术减少模型使用风险,并进一步提升模型性能使用外部工具加强模型的弱点,拓展其能力范围。
2025-03-14 17:38:14
868
原创 python数据可视化--pandas和matplotlib绘图
【标注】上学期对于这部分知识点总是分不清,假期重新整理一遍,希望整理完自己可以更清晰一点。如果有错误或不清晰的地方,还请读者指出。
2023-07-25 18:45:00
2249
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人