AI人工智能
文章平均质量分 93
关于AI大模型原理讲解
一枚后端工程狮
分享你的东西,你所获取到的远远大于你所付出的
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《AI大模型技术全景解读》从机器学习到现代大模型
人工智能的发展经历了从传统机器学习到深度学习关键发展阶段:符号主义AI,基于规则的专家系统:统计机器学习(SVM、决策树、随机森林)2012年:AlexNet开启深度学习革命2017年:Transformer架构诞生2018年至今:预训练大模型时代AI大模型技术的发展经历了从传统的机器学习到深度学习,再到基于Transformer的预训练大模型的演进过程。这一演进不仅带来了技术能力的质的飞跃,也彻底改变了人机交互的方式。关键技术里程碑理论基础:注意力机制解决了长距离依赖问题架构突破。原创 2025-11-10 23:36:11 · 1561 阅读 · 0 评论 -
多模态大模型:跨越感官边界的智能革命
多模态大模型能同时处理文本、图像、音频等信息,实现跨模态理解与生成。它如同“全科博士”,综合多源数据进行推理,在人机交互、内容创作等领域展现强大能力,推动AI迈向更通用的智能新纪元。原创 2025-11-14 14:49:44 · 592 阅读 · 0 评论 -
GPT与BERT深度解析:Transformer的双子星架构
GPT是由OpenAI开发的基于Transformer解码器的自回归语言模型,专注于文本生成任务。特性原始TransformerGPTBERT架构组成编码器+解码器仅解码器仅编码器注意力方向编码器双向,解码器单向严格单向完全双向主要任务序列到序列文本生成文本理解训练目标翻译任务语言建模掩码语言模型推理方式编码-解码自回归生成前向计算典型应用机器翻译对话、创作分类、问答维度原始TransformerGPTBERT诞生时间201720182018开发团队OpenAI。原创 2025-11-12 15:23:27 · 633 阅读 · 0 评论 -
大模型图像生成技术深度解析:从文字到视觉的魔法
图片token化:将连续视觉空间离散化,使图像能够用"视觉语言"描述跨模态对齐:在统一语义空间中对齐文本和视觉概念图像生成技术的发展标志着AI从"理解"到"创造"的重大跨越。视觉语言的建立(图片token化)生成范式的革新(扩散模型)优化技术的成熟(采样、提示、后处理)我们现在能够用自然语言描述就能生成高质量的视觉内容。这不仅改变了内容创作的方式,更重新定义了人类与机器的创造性合作关系。正如摄影术的发明让每个人都能成为"画家",AI图像生成技术正在让每个人都能成为"视觉创作者"。原创 2025-11-14 14:51:14 · 604 阅读 · 0 评论 -
Transformer参数规模深度解析:从模型聪明说到实际影响
参数增加通过扩大知识容量和增强复杂模式识别能力使模型更"聪明",但存在边际效应和过拟合风险。优化推理效率,支持128K tokens长上下文处理能力,在代码生成、数学计算和多语言理解等场景展现显著优势。- 拥有庞大的知识库(总参数),却能高效灵活地处理任务(激活参数),兼具强大能力和高效推理。- 通过更优的架构、训练方法和压缩技术,让每个参数发挥更大价值。- 高度压缩的大型模型比轻度压缩的小型模型可能获得更高精度。是模型内部结构的核心要素,它们如同模型的。参数规模,才是明智的技术决策。原创 2025-11-11 15:40:26 · 826 阅读 · 0 评论 -
Transformer的核心:自注意力机制
自注意力机制是Transformer架构的核心组件,它允许序列中的每个元素直接与所有其他元素进行交互和关联,从而动态计算每个位置在理解当前元素时应该关注序列中的哪些部分。原创 2025-11-11 15:36:57 · 964 阅读 · 0 评论 -
Transformer中的线性与非线性变换:智能的数学交响曲
核心定义:线性变换是满足叠加性和齐次性叠加性齐次性在神经网络中,线性变换通常表示为:输出 = 权重矩阵 × 输入 + 偏置向量y = Wx + b线性变换:提供结构和可学习参数像乐谱的音符,定义了基本元素负责信息传递、维度变换、特征组合非线性变换:提供表现力和创造力像音乐家的演绎,注入灵魂和情感负责复杂模式学习、层次特征提取。原创 2025-11-12 15:21:59 · 899 阅读 · 0 评论 -
MoE架构:大模型的规模扩展革命
MoE是混合专家系统的缩写,是一种通过组合多个"专家"网络来构建更大模型的技术。每个专家都是相对较小的神经网络,而门控网络负责根据输入动态选择最相关的专家。# Switch Transformer配置"experts_used": 1, # Switch: 每次只使用1个专家"key_innovation": "简化路由,每次只选1个专家","performance": "在相同计算预算下,比T5快7倍"# Switch Transformer的核心创新。原创 2025-11-12 15:24:37 · 947 阅读 · 0 评论 -
Transformer中的残差连接与层归一化
核心定义:残差连接是一种跳跃连接技术,它将某一层的输入直接"跳过"该层,与该层的输出相加。数学表达输出 = 层归一化(输入 + 子层(输入))原创 2025-11-11 15:40:03 · 798 阅读 · 0 评论 -
Transformer模型训练全解析:从数据到智能的炼金术
模型训练是指通过大量数据自动调整模型参数,使模型能够从输入数据中学习规律和模式,从而具备解决特定任务能力的过程。数据是燃料:质量高、数量足的数据是成功训练的基础架构是蓝图:合适的模型架构为学习提供可能性优化是引擎:高效的优化算法驱动学习过程正则化是导航:防止模型偏离正确方向监控是仪表盘:实时了解训练状态,及时调整。原创 2025-11-12 15:22:32 · 898 阅读 · 0 评论 -
Transformer架构深度解析:重新定义序列建模的革命
是一种基于自注意力机制的神经网络架构,专门设计用于处理序列数据,但完全摒弃了传统的循环和卷积结构。它于2017年由Google在论文《Attention Is All You Need》中首次提出。有时候,放弃传统的归纳偏置(如局部性、顺序性),让模型完全从数据中学习,反而能获得更强大的能力。正如论文标题《Attention Is All You Need》所宣告的,这个简洁而强大的架构不仅改变了自然语言处理,正在重塑整个人工智能领域。原创 2025-11-11 15:37:58 · 719 阅读 · 0 评论 -
《AI大模型》从机器学习到现代大模型
人工智能的发展经历了从传统机器学习到深度学习关键发展阶段:符号主义AI,基于规则的专家系统:统计机器学习(SVM、决策树、随机森林)2012年:AlexNet开启深度学习革命2017年:Transformer架构诞生2018年至今:预训练大模型时代AI大模型技术的发展经历了从传统的机器学习到深度学习,再到基于Transformer的预训练大模型的演进过程。这一演进不仅带来了技术能力的质的飞跃,也彻底改变了人机交互的方式。关键技术里程碑理论基础:注意力机制解决了长距离依赖问题架构突破。原创 2025-11-11 15:36:26 · 980 阅读 · 0 评论 -
从文字到向量:Transformer的语言数字化之旅
向量化是将离散的符号(如文字)转换为连续的数值向量的过程。在深度学习中,它把人类可读的文本转换成计算机能够理解和处理的数学表示。文字向量化不仅是技术实现,更是思维范式的转变。原创 2025-11-12 15:21:27 · 825 阅读 · 0 评论
分享