自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 【DataWhale|LLM】2.3主流模型架构以及新型架构

同时也有许多研究通过注意力研究中的上下文窗口实现对长文本的建模,目前主要有三种类型,并行上下文窗口、箭头型上下文窗口和词元选择,下面。通过递归分解当前时刻的输出,可以看到当前时刻的输出其实是对过去每一个时刻输入的卷积,因此参数化状态空间模型可以使用傅里叶变换实现高效卷积计算,极大的提高了计算效率。研究发现,虽然ALiBi编码在文本长度增加时,Perplexity可以保持稳定,但仍然无法保证在超出上下文窗口后对文本的理解能力,因此会出现检索准确率下降的情况。

2025-03-21 21:18:35 760

原创 【DataWhale|LLM】2.1transformer架构及详细配置

注:因为本次课程中表格和公式比较多,因此比较多地引用到了课件中的图和内容,建议大家直接观看视频。

2025-03-20 23:22:18 969

原创 【DataWhale|LLM】1.3GPT、DeepSeek模型介绍

GPT系列从18年开始系统迭代,对于大模型发展起到了深远影响2017年,谷歌提出Transformer架构2018年,OpenAI提出GPT,此时的GPT参数量还不算大,仅有1亿+2020年,GPT-3,1750亿参数2022年11月,ChatGPT(对话功能)这些系列模型迭代过程很漫长,包含对很多基础的探索,对大模型发展起到了深远影响。该团队在研究过程中展现了多个值得学习的方面:首先,他们具备广阔的,能够在技术发展的早期阶段就提出基于无监督预训练解码器架构的创新思路。

2025-03-17 21:19:21 962

原创 【DataWhale|LLM】1.2大模型技术基础

扩展定律奠定了早期大模型的技术路线,产生了巨大的性能提升数据数量、数据质量以及配制方法极其关键需要建立可预测、可扩展的大规模训练架构预训练后可以通过微调、对齐、提示工程等技术进行能力激活需要设计对齐技术减少模型使用风险,并进一步提升模型性能使用外部工具加强模型的弱点,拓展其能力范围。

2025-03-14 17:38:14 868

原创 【DataWhale|LLM】1.1语言模型发展历程

大预言模型》-赵鑫。

2025-03-10 17:18:26 996

原创 【datawhale夏令营2024】学习笔记01-如何跑通baseline

不同的软件应用程序之间进行通信。

2024-07-04 23:43:18 1119

原创 python数据可视化--pandas和matplotlib绘图

【标注】上学期对于这部分知识点总是分不清,假期重新整理一遍,希望整理完自己可以更清晰一点。如果有错误或不清晰的地方,还请读者指出。

2023-07-25 18:45:00 2249

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除