大模型
文章平均质量分 94
从零开始的大模型
wxchyy
你可以被 bug 打倒,但不能被 bug 打败
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
万字长文|大模型核心技术拆解
本文介绍了构建大语言模型的关键技术,包括预训练和微调两个核心阶段,以及数据预处理、词嵌入、文本分词等技术细节。文章详细讲解了BPE分词算法的工作原理,阐述了如何通过引入特殊词元和滑动窗口处理文本数据,并对比了绝对位置嵌入和相对位置嵌入方法。最后简要提及了注意力机制的实现,为大模型构建提供了全面而基础的技术指导。原创 2025-05-26 21:12:49 · 903 阅读 · 16 评论 -
一文读懂大模型高效微调:从Soft Prompts到 QLoRA的技术跃迁
本期文章介绍了大模型微调的高效方法,主要分为三类:Additive(增加额外参数)、Selective(选择性更新参数)和Reparametrization-based(引入重参数化)。Additive方法包括Adapters和Soft Prompts,通过引入额外参数或优化提示机制来增强模型性能。Selective方法则聚焦于有选择性地调整模型参数。Reparametrization-based方法通过重参数化技术优化模型,典型代表是LoRA,通过低秩矩阵模拟全量微调过程。文章还详细介绍了Prompt策略原创 2025-05-18 19:02:18 · 1736 阅读 · 14 评论 -
Transformer 架构全解析:从 Attention 机制到编码器 - 解码器,一文吃透核心原理
本期笔者将尽可以能的让你对于Transformer架构有个真正深入的了解。对于时序任务,我们在没有Transformer架构的时候,会使用循环神经网络(RNN)和长短期记忆网络(LSTM)进行处理,不过它们有个最根本的问题就是无法处理长期依赖,前面的信息到后面往往会遗忘。为了解决这一问题,Transformer架构应运而生,并为后面的大模型的出现奠定了理论基础。对于如何解决长期依赖问题,Transformer完全依赖于注意力机制,摒弃了循环,这种特殊的注意力机制称为自注意力。原创 2025-04-20 20:27:13 · 1449 阅读 · 42 评论 -
从 Transformer 到 BERT:一文读懂 NLP 预训练模型的 “双向革命”
上期笔者介绍了Transformer架构,这个架构是之后各个大模型的基础,本期将介绍基于Transformer架构的BERT,同样会以尽可能通俗易懂的语言,让你对BERT有个真正深入的了解,话不多说,抓紧开始。本期的BERT实际上在理解了Transformer架构后,我们能够很轻松的理解它,它有两个预训练任务,分别为掩码语言模型构建和下句预测,以及有独特的词嵌入方式。相信看完此篇的你对其能有个大致的了解。原创 2025-04-21 16:13:58 · 1265 阅读 · 10 评论
分享