自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 DataWhale 11月 Happy-LLM T8:Decoder-Only PLM

摘要:大语言模型(LLM)的核心架构选择中,Decoder-Only架构已成为主流技术路线。本文通过分析GPT系列(从GPT-1到GPT-3)、开源LLaMA系列(优化注意力机制与训练策略)以及中文GLM系列(融合MLM与CLM任务)的技术演进,揭示了Decoder-Only架构的优势:任务一致性、渐进式学习和更好的泛化能力。关键发现包括因果语言模型(CLM)优于掩码语言模型(MLM),以及注意力机制从MHA到GQA的优化路径。研究表明,技术发展需要长期坚持与持续优化,Decoder-Only架构的成功体现

2025-11-23 21:41:34 770

原创 DataWhale 11月 Happy-LLM T7:Encoder-Decoder PLM

本文系统介绍了T5模型的核心思想与实现原理。T5通过Encoder-Decoder架构统一处理各类NLP任务,将所有任务转换为文本到文本的格式,并采用动态掩码策略和RMSNorm等技术优化训练。其创新性体现在用简单前缀指令让模型理解任务类型,实现了NLP任务的通用解决方案。T5的设计理念启示我们,优秀的人工智能应自然理解人类表达,让技术适应人的需求。

2025-11-22 01:11:21 465

原创 DataWhale 11月 Happy-LLM T6:Encoder-only预训练语言模型:从BERT到ALBERT

特性BERTRoBERTaALBERT核心创新双向编码训练优化参数效率预训练任务MLM+NSP纯MLMMLM+SOP训练数据13GB160GB同BERT参数数量1.1亿/3.4亿3.4亿大幅减少主要贡献确立范式规模效应效率优化。

2025-11-20 00:05:51 877

原创 DataWhale 11月 Happy-LLM T5:搭建一个 Transformer

本文详细介绍了Transformer模型的核心实现,重点解析了Embedding层和位置编码的工作原理。Embedding层通过向量化表示将离散token转换为连续语义空间,而正弦余弦位置编码则为模型提供位置信息。文章展示了完整Transformer架构的实现细节,包括Pre-Norm与Post-Norm的对比选择,并强调Transformer通过自注意力机制模拟人类理解语言的方式——同时关注全局上下文和局部关系。作者指出这种并行处理的设计不仅提升计算效率,更建立了深层次的语义理解能力,使Transform

2025-11-18 00:01:22 832

原创 DataWhale 11月 Happy-LLM T4:Transformer 架构-Encoder-Decoder

本文深入解析Transformer的Encoder-Decoder架构,这是大模型如BERT、GPT的核心基础。首先介绍了Seq2Seq框架及其在NLP任务中的通用性,随后详细剖析了Encoder和Decoder的结构设计。重点讲解了三大核心组件:前馈神经网络实现位置独立计算、层归一化稳定训练过程、残差连接缓解梯度消失。通过代码展示了Encoder如何编码全局语义,Decoder如何结合掩码自注意力和编码器输出进行序列生成。文章强调动手实践的重要性,建议分阶段实现Transformer,并分享了对梯度消失、

2025-11-16 00:31:12 876

原创 DataWhale 11月 Happy-LLM T3:Transformer 架构

本文系统解析了Transformer架构的核心——注意力机制。从传统神经网络(FNN/CNN/RNN)的局限引出注意力机制的必要性,详细剖析其计算原理(Query-Key-Value交互)、自注意力特性及掩码技术的实现。重点阐述了多头注意力如何通过并行计算不同语义关系增强模型表达能力,并分享了代码实现中的关键细节。作者指出注意力机制模拟了人类选择性聚焦的认知方式,突破了序列模型的限制,其网络化思维特性对理解现代大语言模型具有奠基意义。全文融合理论推导与实践心得,为NLP学习者提供了系统性认知框架。

2025-11-15 01:42:35 756

原创 DataWhale 11月 Happy-LLM T2:NLP基础概念

两种方法对比方法类型优点缺点适用场景抽取式摘要完全来自原文流畅性差新闻摘要生成式摘要重新组织和改写可能失真创意写作2021年5月22日,国家航天局宣布,我国自主研发的火星探测器“天问一号”成功在火星表面着陆。此次任务的成功,标志着我国在深空探测领域迈出了重要一步。“天问一号”搭载了多种科学仪器,将在火星表面进行为期90个火星日的科学探测工作,旨在研究火星地质结构、气候条件以及寻找生命存在的可能性。

2025-11-11 22:33:10 508

原创 DataWhale 11月 Happy-LLM T1:大语言模型入门指南

摘要:本文概述了大语言模型(LLM)的技术演进与学习路径。LLM从传统预训练模型发展到具有"涌现能力"的阶段,展现出上下文学习、指令理解和复杂推理三大核心能力。作者强调理论与实践相结合的学习方法,建议通过项目实践巩固知识,并推荐了相关学习资源。学习LLM不仅是技术提升的过程,更能带来思维方式的转变。文章鼓励读者在社区交流中共同进步,坚持实践探索这一颠覆性技术领域。

2025-11-10 23:35:11 267

原创 DataWhale 10月 大模型后训练 T1:后训练技术介绍

本文系统阐述了大语言模型训练的两个核心阶段:预训练阶段通过海量无标注文本学习基础语言能力,后训练阶段则通过监督微调(SFT)、直接偏好优化(DPO)和在线强化学习(如GRPO)等方法,使模型具备任务执行能力。文章强调成功的后训练需要数据算法协同设计、高效工具库和严谨评估体系,并具体说明了不同场景下的应用方案,如领域专用模型开发、复杂指令遵循等。最后分享了实训心得,指出后训练是将通用模型转化为专业工具的关键技术。

2025-10-15 22:34:11 481

原创 DataWhale 9月 大模型实训 T4:微调大模型

本文系统介绍了大语言模型微调的完整流程。首先阐述了微调的基本概念,即使用特定数据集在预训练模型基础上进行额外训练,使其适应专业领域或定制任务。文章详细讲解了数据准备的三种方法,并以"甄嬛角色扮演"任务为例,演示了数据集构建、格式转换和预处理过程。重点介绍了LoRA高效微调技术,通过仅更新少量低秩参数实现模型性能提升。最后提供了完整的微调实践方案,包括模型加载、训练配置和推理部署,并分享了实训心得。整个教程从理论到实践,帮助读者掌握大模型定制化的核心技术。

2025-09-27 00:12:24 1161

原创 DataWhale 9月 大模型实训 T3:Prompt Engineering

摘要:本文系统介绍了提示词工程的核心概念与实践方法。首先解析了提示词(Prompt)作为人机交互指令的本质,以及提示词工程的设计、实验、迭代三环节。随后提出任务+主体+细节+形式的万能公式,并详细讲解了赋予角色、分步思考、示例示范、格式化输出四大优化技巧。通过英语教学实例对比展示了技巧应用前后的效果差异,验证了结构化提示词能显著提升模型输出质量。最后指出精准的提示词设计是释放大模型潜力的关键,需要持续实践优化。全文为AI交互提供了实用方法论,特别适合大模型初学者掌握高效提示词编写技巧

2025-09-24 00:43:00 731

原创 DataWhale 9月 大模型实训 T2:大模型使用

本文介绍了如何调用和使用大语言模型(LLM),包括云端API调用和本地部署两种方式。在云端API调用方面,以硅基流动平台为例,演示了如何通过OpenAI库或requests库调用Qwen3-8B模型,并详细说明了参数设置(如temperature、max_tokens、stream等)对模型输出的影响。在本地部署方面,介绍了使用transformers库加载Qwen3-4B模型的方法,以及如何通过vLLM框架进行高性能部署。文章还提供了代码示例,展示如何实现单轮对话、多轮对话和流式输出等功能。最后总结了从理

2025-09-22 22:50:28 1485 1

原创 DataWhale 9月 大模型实训 T1:大模型介绍与环境配置

大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐算法等。大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。那么,大模型和NLP有什么区别?传统NLP模型(如BERT)代表了“专才”模式。其核心思路是为特定任务专门定制模型。

2025-09-18 00:55:14 871

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除