- 博客(2)
- 收藏
- 关注
原创 大语言模型技术(2025.3.15)学习心得
大模型(Large Language Models, LLMs)是基于深度学习的自然语言处理(NLP)模型,参数规模通常在亿级到万亿级(如GPT-3有1750亿参数)。其核心思想是通过海量数据和计算资源进行预训练,学习通用的语言表示能力,再通过微调适配下游任务。模块核心要点架构Transformer为基础,自注意力机制解决长程依赖,位置编码保留序列信息。训练范式预训练+微调:MLM/自回归任务学习通用表示,下游任务适配。扩展性参数、数据、计算同步扩展(Scaling Laws),但需平衡成本与性能。
2025-03-16 00:19:08
247
原创 大语言模型发展历程(2025.3.12)学习心得
大语言模型发展不是一蹴而就,它经历了下文中展示的 统计语言模型(SLM),神经语言模型(NLM ),预训练语言模型(PLM)以及现在的大语言模型(LLM)几个重要阶段,每一阶段都凝结着无数专业人士的心血。本篇参考《大语言模型》赵鑫编著一书,根据我自己的理解和AI帮助完成了这篇文章(新手小白):神经网络(RNN)、词嵌入(word2vec):Transformer架构、自注意力机制。:模型规模扩展(参数/数据/算力):n-gram模型、马尔可夫假。:模型可迁移性差,依赖特征工程。:信息检索、文本分类。
2025-03-12 22:08:21
266
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人