- 博客(45)
- 收藏
- 关注
原创 AI大事记13:GPT 与 BERT 的范式之争(上)
2018年,人工智能领域迎来重大突破,OpenAI的GPT-1和Google的BERT相继问世,共同开创了预训练模型的新纪元。GPT-1采用单向Transformer解码器架构,确立"预训练+微调"范式,在多项NLP任务中表现优异。BERT则创新性地采用双向Transformer编码器,通过掩码语言模型和下一句预测任务,在11项NLP基准上全面超越前人。虽然技术路线不同,但两者共同推动了自然语言处理技术的革命性发展,为后续大模型时代奠定了基础。这一年标志着AI研究从专用模型向通用预训练模型的重要转型。
2025-10-22 21:27:21
1346
原创 AI大事记12:Transformer 架构——重塑 NLP 的革命性技术(下)
摘要:Transformer架构已成为现代大语言模型(如GPT、PaLM等)的核心基础,其并行计算、长距离依赖建模和灵活扩展性支撑了模型规模的持续扩大。关键技术突破包括混合专家模型(MoE)、稀疏注意力机制和位置编码改进,显著提升了效率和性能。同时,Transformer正拓展至多模态领域,成功应用于视觉、语音等任务。尽管面临部署挑战,但通过模型压缩、硬件加速和算法优化等方案持续推动应用落地。Transformer不仅是一项技术突破,更开创了AI发展的新范式,奠定了智能时代的基石。
2025-10-19 20:49:05
1706
2
原创 AI大事记12:Transformer 架构——重塑 NLP 的革命性技术(中)
Transformer架构彻底革新了NLP领域,其核心贡献包括:1)确立"预训练-微调"范式,使BERT和GPT等模型仅需少量标注数据即可在各类任务中取得突破性表现;2)在机器翻译、文本生成等任务上实现性能飞跃,多项指标超越人类水平;3)通过自注意力机制实现高度并行计算,训练效率显著提升;4)推动NLP进入预训练时代,大幅降低技术应用门槛,并为多模态大模型发展奠定基础。
2025-10-13 22:44:45
773
原创 AI大事记12:Transformer 架构——重塑 NLP 的革命性技术(上)
本文分析了传统NLP架构的局限性及其突破性解决方案Transformer的诞生。传统RNN存在长距离依赖和并行计算困难,CNN则难以捕捉全局语义关系。2017年Google提出的Transformer创新性地采用自注意力机制,通过查询-键-值三元组实现序列元素的全局关联,并引入多头注意力多角度理解语义。针对位置信息缺失问题,设计了正弦余弦位置编码;通过编码器-解码器架构实现通用序列转换。这些创新使Transformer摆脱了串行计算限制,大幅提升了NLP任务性能,为后续预训练模型奠定了基础。
2025-10-12 21:36:39
2047
原创 深度学习基础:从原理到实践——第二章神经网络(中)
三层神经网络由输入层、两个隐藏层和输出层构成,是深度学习的基础架构。输入层节点数由数据特征维度决定(如MNIST任务需784个节点),隐藏层节点数通常取输入层的2/3至两倍,输出层节点数由任务类别决定。前向传播通过加权和与激活函数(隐藏层用Sigmoid,分类任务输出层用Softmax)逐层处理数据,反向传播则通过误差反传优化参数。该架构虽简单,但在MNIST识别中可达97%准确率,且为理解CNN、RNN等复杂模型奠定基础
2025-10-11 22:16:11
186
原创 AI大事记11:从 AlphaGo 到 AlphaGo Zero(下)
AlphaGo到AlphaGoZero的技术演进展现了AI从依赖人类知识到自主学习的重大突破。关键创新包括:1)训练方法革命,完全摒弃人类棋谱,通过自我对弈实现更高水平;2)神经网络架构优化,将策略网络与价值网络融合为统一模型;3)搜索算法改进,显著提升蒙特卡洛树搜索效率。这些技术已成功应用于国际象棋、蛋白质结构预测等领域,推动了深度学习和强化学习的整体发展。AlphaGo系列不仅证明了AI解决复杂问题的能力,也为人机协作和自主创新提供了新范式。
2025-10-10 21:52:21
1056
原创 AI大事记11:从 AlphaGo 到 AlphaGo Zero(上)
AlphaGo:AI攻克围棋巅峰的里程碑 2016年,谷歌DeepMind研发的AlphaGo以4:1战胜围棋世界冠军李世石,震惊全球。仅一年后,其升级版AlphaGoZero通过完全自我对弈学习,不仅超越了人类水平,还战胜了前代AlphaGo。这一突破性进展源于深度学习与蒙特卡洛树搜索的创新结合,使AI首次在复杂智力游戏中击败人类顶尖选手。AlphaGoZero更摒弃人类棋谱,仅用40天训练就达到超高水平,展示了强化学习的强大潜力。
2025-10-10 21:48:22
1061
原创 深度学习基础:从原理到实践——第二章神经网络(上)
本文系统介绍了神经网络中的激活函数演进及其特性。从感知机的局限性引出神经网络对非线性问题的处理能力,重点分析了10种典型激活函数的特点:Sigmoid和Tanh函数作为早期经典激活函数存在梯度消失问题;ReLU及其变体(LeakyReLU、PReLU等)通过改进负值处理提升了性能;ELU和SELU函数通过引入指数处理实现自归一化;Swish和GELU等新型激活函数结合线性和非线性特性,在深层网络中表现优异。文章详细阐述了各激活函数的数学表达式、优劣势及适用场景,为神经网络设计提供了重要参考。
2025-10-09 22:00:33
945
1
原创 深度学习基础:从原理到实践——附录B:感知机实现逻辑电路的 Python 代码
本文展示了如何使用感知机实现基本逻辑门。通过定义感知机预测函数和调整权重参数,实现了与门、与非门和或门。其中,异或门通过组合与非门和或门构成多层感知机来实现。代码最后验证了所有逻辑门的输入输出关系,展示了单层感知机处理线性可分问题(与/与非/或门)和多层感知机处理非线性问题(异或门)的能力。
2025-10-09 20:50:28
38
原创 深度学习基础:从原理到实践——附录A:PyTorch 深度学习框架基础(下)
PyTorch作为主流深度学习框架,其核心特性包括:1)基于反向积累的高效自动微分系统;2)模块化神经网络设计,支持卷积、池化等常见层;3)强大的数据加载与预处理机制;4)便捷的GPU加速与分布式训练支持;5)灵活的模型保存策略。与TensorFlow相比,PyTorch采用动态计算图,在灵活性、调试体验和性能(快5-15%)方面更具优势,尤其在学术研究和LLM领域表现突出。
2025-10-08 18:17:11
247
原创 深度学习基础:从原理到实践——附录A:PyTorch 深度学习框架基础(上)
PyTorch已成为深度学习领域的主流框架,其核心优势在于动态计算图机制和Python优先设计理念。由Facebook AI研究院开发,PyTorch从Torch框架演进而来,2025年在学术研究中占比达68%。其动态图特性使调试效率提升40%,特别适合前沿AI研究。PyTorch架构基于张量运算、自动微分系统和模块化神经网络设计,支持丰富的优化器和损失函数。随着大模型和多模态AI的发展,PyTorch在GitHub上已获85万星标,拥有4,200多名贡献者,成为学术和工业界首选的深度学习平台。
2025-10-08 18:11:19
364
原创 深度学习基础:从原理到实践——第一章感知机(下)
本文介绍了使用感知机实现基本逻辑电路的方法。通过调整权重w1、w2和偏置b,单层感知机可以成功实现与门、与非门和或门,这些线性可分问题都有无数种参数组合方案。然而,单层感知机无法解决异或门这样的非线性问题,这导致了早期AI研究的瓶颈。通过引入多层感知机(增加隐藏层),可以组合多个基本逻辑门来实现异或功能,从而突破线性限制。感知机作为首个可学习的人工神经网络模型,虽然结构简单,但为后续深度学习发展奠定了基础,其数学模型和核心概念至今仍具重要教育价值。
2025-10-07 19:14:21
277
原创 深度学习基础:从原理到实践——第一章感知机(中)
感知机是一种线性分类模型,其数学定义为f(x)=sign(w·x+b),其中w为权重向量,b为偏置。权重向量决定分类超平面的方向和特征重要性,偏置控制超平面位置。感知机使用符号函数作为激活函数,将线性组合转换为离散分类结果。该模型具有明确的几何意义:w是超平面法向量,点到超平面距离反映分类置信度。虽然可选用sigmoid、ReLU等其他激活函数,但符号函数仍是单层感知机的标准选择,尽管其不连续性限制了优化算法的使用。
2025-10-07 19:04:47
468
原创 AI大事记10:从对抗到创造——生成对抗网络 (GANs)
2014年,伊恩・古德费洛在蒙特利尔小酒馆灵光一闪,提出让两个神经网络互相对抗的构想,由此诞生了改变AI领域的生成对抗网络(GANs)。这一技术通过生成器与判别器的对抗训练,实现了从随机噪声生成逼真图像的能力。从最初的DCGAN到后来的StyleGAN,GANs技术不断演进,在图像生成、艺术创作、医学影像等领域展现出惊人创造力。在大模型时代,GANs与Transformer等技术的融合进一步拓展了应用边界,为AI发展注入新活力。从酒馆的灵感到改变世界的技术,GANs的演变历程展现了人工智能创新的无限可能。
2025-10-06 20:02:10
2451
1
原创 深度学习基础:从原理到实践——第一章感知机(上)
摘要:感知机是人工智能发展史上的重要里程碑,由Frank Rosenblatt于1957年提出。作为首个可学习的线性分类器,感知机模拟生物神经元机制,通过权重向量和激活函数实现逻辑运算。虽然1969年被证明无法解决线性不可分问题导致研究停滞,但它奠定了现代神经网络基础。感知机具有线性可分性、二分类能力和学习特性,其数学公式y=sign(w·x+b)构成了简单而强大的分类模型。尽管存在局限性,理解感知机对掌握深度学习等现代算法具有重要意义。
2025-10-06 19:32:01
857
1
原创 AI大事记9:从 AlexNet 到 ChatGPT——深度学习的十年跃迁(下)
2012年AlexNet开启了深度学习浪潮,随后VGG、ResNet等模型不断突破计算机视觉领域的性能边界。2017年Transformer架构的提出带来了重大转折,其自注意力机制大幅提升了序列数据处理能力。2018年后,BERT、GPT等预训练模型引领了自然语言处理的范式变革,参数规模从AlexNet的6000万暴增至GPT-3的1750亿,展现出惊人的涌现能力
2025-10-05 13:39:39
1205
原创 AI大事记9:从 AlexNet 到 ChatGPT——深度学习的十年跃迁(上)
2012年,杰弗里·辛顿团队凭借AlexNet在ImageNet竞赛中以15.3%的错误率夺冠,引发深度学习革命。AlexNet通过ReLU激活函数、Dropout正则化和多GPU并行训练三项关键技术突破,解决了梯度消失、过拟合和计算瓶颈等难题。其8层网络架构(5卷积层+3全连接层)开创了端到端深度学习新范式,证明自动学习特征优于人工设计特征。这一里程碑事件标志着AI从实验室走向产业应用,为后续ChatGPT等突破奠定了基础。
2025-10-05 13:34:09
1547
原创 AI大事记8:深蓝与卡斯帕罗夫——符号主义 AI 的巅峰与局限(下)
本文探讨了深蓝对AI发展的深远影响及现代AI技术的演进。深蓝作为符号主义AI的巅峰,展示了暴力搜索与启发式评估的威力,促进了并行计算发展,并引发对智能本质的思考。从深蓝到ChatGPT,AI技术经历了从符号主义到数据驱动的范式转变。未来AI将向混合智能系统、知识增强大模型、自主学习和人机协作等方向发展。深蓝的启示提醒我们:技术有其边界,人类智能在理解力、创造力和情感方面仍具独特价值。人机协作而非取代才是AI发展的正确方向,在技术进步中保持对人类独特价值的珍视至关重要。
2025-10-04 21:06:01
1164
原创 AI大事记8:深蓝与卡斯帕罗夫——符号主义 AI 的巅峰与局限(中)
摘要: 符号主义AI以规则和逻辑为核心(如专家系统),依赖显式知识表示和推理机制,但面临知识获取难、适应性差等局限。连接主义(如深度学习)通过数据驱动学习隐式模式,实现强大泛化能力,但可解释性弱。两者融合成为AI发展趋势,现代大模型(如GPT)虽在泛化能力上超越符号系统,但仍缺乏真正的理解与创造力。从深蓝的特定领域局限到大模型的多任务适应,AI范式转向数据驱动,但人类智能的抽象能力仍是机器难以企及的关键差距。
2025-10-04 21:05:55
1299
原创 AI大事记8:深蓝与卡斯帕罗夫——符号主义 AI 的巅峰与局限(上)
1997年5月11日,IBM超级计算机"深蓝"以3.5:2.5击败国际象棋世界冠军卡斯帕罗夫,成为人工智能发展史上的里程碑事件。这台重1.4吨、运算速度达每秒2亿步的计算机,通过暴力穷举与优化算法(包括极小极大算法和α-β剪枝)实现了这一突破。相比1996年的首次交锋,升级后的深蓝运算速度翻倍,并融入了人类棋手的经验知识。这场胜利展现了符号主义AI的巅峰成就,同时也暴露出其依赖规则、缺乏直觉的局限性,为后续数据驱动型AI的发展指明了方向。
2025-10-03 14:47:25
1748
原创 AI大事记7:统计学习方法普及(1990s)——从符号逻辑到数据驱动的 AI 革命(下)
统计学习与深度学习存在理论关联,前者为后者提供了概率基础、优化方法和泛化理论。现代深度学习在模型复杂度、特征表示等方面取得突破,但仍建立在统计学习基础上。统计学习的历史贡献包括推动AI范式转变、提供理论基础等,但其局限性在于模型表达能力和特征工程需求。未来趋势是统计学习与深度学习的融合,如混合模型、概率深度学习等。统计学习方法将继续在理论深化、跨领域应用等方面发挥重要作用。
2025-10-03 14:13:32
1059
原创 AI大事记7:统计学习方法普及(1990s)——从符号逻辑到数据驱动的 AI 革命(上)
1990年代统计学习方法的兴起标志着AI研究从符号逻辑转向数据驱动的范式转变。隐马尔可夫模型(HMM)通过处理序列数据的双重随机过程,在语音识别和自然语言处理领域取得突破;支持向量机(SVM)基于最大间隔原则和核技巧,成为小样本分类的有效工具。这两种代表性统计学习方法推动了AI从理论走向应用,为后续深度学习发展奠定了基础。统计学习革命不仅改变了研究范式,更使计算机能够从数据中自动学习规律,显著提升了语音识别、文本分类等领域的性能表现。
2025-10-02 16:45:25
827
原创 AI大事记6:反向传播算法 —— 深度学习的 “心脏“ 如何跳动?
1986年,《Nature》杂志发表的《通过反向传播误差来学习》论文提出反向传播算法,彻底改变了人工智能发展轨迹。该算法由鲁梅尔哈特、辛顿和威廉姆斯提出,解决了多层神经网络训练难题,为深度学习奠定了基础。文章详细探讨了反向传播算法的历史背景、技术原理及其在AI大模型训练中的核心作用。通过前向传播和链式法则实现误差逆向传播,该算法成为现代AI技术如GPT、AlphaGo等的关键支撑。尽管面临大模型训练的挑战,但通过梯度累积、并行策略等技术优化,反向传播仍是AI发展的核心引擎。
2025-10-02 16:12:51
1395
原创 AI大事记5:专家系统商业化——人工智能首次大规模应用(下)
专家系统是人工智能发展史上的重要里程碑,其典型架构由知识获取系统、专家知识库和aon自动推理机三大模块构成,通过将专家隐性知识转化为显性规则实现复杂问题求解。20世纪80年代,专家系统在医疗、工业、金融等领域实现广泛商业应用,但高昂的知识获取维护成本及对未知情景适应性不足导致后续发展遇冷。尽管热潮消退,专家系统在知识表示、推理机制和领域特定智能方面的贡献深刻影响了现代AI发展。
2025-10-01 14:01:16
1211
原创 AI大事记5:专家系统商业化——人工智能首次大规模应用(上)
摘要:1970年代专家系统的出现标志着AI首次商业落地。Dendral作为首个成功系统,通过编码化学专家知识解析质谱数据,开创了AI专业领域应用先河。MYCIN则在医疗诊断领域表现突出,其65%的准确率超过初级医师,抗生素治疗方案可接受度达69%。尽管MYCIN因技术限制和医疗保守态度未能商业化,但这两个系统奠定了知识工程基础,证明了AI在特定领域的实用价值,为后续智能系统发展提供了重要范例。(149字)
2025-10-01 13:52:05
967
原创 AI大事记4:从 ELIZA 到 ChatGPT—— 对话式 AI 的世纪征程(下)
AI发展中的"类人假象"指大模型通过语言表演制造人格幻觉,实则缺乏真实理解与行为约束。从ELIZA到现代AI,拟人化设计利用人类认知弱点(如ELIZA效应),使用户易将情感投射至机器。尽管技术从模式匹配跃迁至千亿参数模型(如GPT-5),具备多模态与推理能力,但"理解缺失"的本质未变。这种假象虽提升交互体验,却可能引发情感依赖、责任模糊等伦理风险。技术演进中,人类需警惕被表象智能迷惑,维系真实人际互动,确保技术服务于人性而非替代它。
2025-09-30 21:13:58
1263
原创 AI大事记4:从 ELIZA 到 ChatGPT—— 对话式 AI 的世纪征程(上)
1966年诞生的ELIZA仅用200行代码就创造了机器"理解"人类的假象,其简单的模式匹配技术却引发了用户强烈的情感依恋,这一现象被称为"ELIZA效应"。作为首个聊天机器人,ELIZA模拟罗杰斯心理治疗师的对话方式,揭示了人类倾向于赋予机器智能体人性化特质的心理机制。其开发者维森鲍姆从AI先驱转变为批判者,警示将人类判断权交给机器的伦理风险。
2025-09-30 21:08:46
1398
原创 AI大事记3:从青蛙神经元到感知机,一场跨学科的科学革命(下)
感知机作为首个机器学习模型,在1969年因明斯基和派普特证明其无法解决线性不可分问题(如异或运算)而陷入发展低谷,导致神经网络研究停滞十余年。尽管存在局限,感知机开创了监督学习先河,奠定了反向传播算法基础,并促成神经科学与计算机科学的交叉研究。随着计算技术进步,多层感知机(MLP)克服了单层局限,成为深度学习核心组件。现代卷积神经网络和循环神经网络均源自感知机思想,在
2025-09-29 22:05:24
742
原创 AI大事记3:从青蛙神经元到感知机,一场跨学科的科学革命(中)
感知机模型的诞生与发展历程可追溯至1940-1960年代。1943年McCulloch和Pitts提出首个神经元数学模型,1949年Hebb提出神经元学习法则。1957年Rosenblatt在此基础上提出感知机模型,这是首个具有学习能力的人工神经网络。感知机包含输入层、处理单元和输出层,通过权重调整实现模式识别。Rosenblatt还开发了感知机学习算法,证明了收敛定理,并在1958-1960年间成功实现字母识别实验。尽管感知机为AI发展奠定基础,但其识别能力仍受限于训练数据,无法可靠处理变形图像。这一开创
2025-09-29 22:00:27
887
原创 AI大事记3:从青蛙神经元到感知机,一场跨学科的科学革命(上)
回顾了神经科学与人工智能交叉发展的关键历程。从1780年伽伐尼发现青蛙腿的生物电现象,到20世纪神经电生理研究的重大突破,为人工智能奠定了生物学基础。1952年霍奇金和赫胥黎提出的神经元模型揭示了动作电位的离子机制,而同期对青蛙视网膜细胞的研究则发现了神经元特征识别的选择性机制。这些神经科学发现直接启发了感知机等早期AI模型的创建,展现了跨学科研究对科技创新的深远影响。
2025-09-28 21:22:03
1501
原创 AI大事记2:达特茅斯会议——人工智能学科诞生的历史性时刻(下)
1956年达特茅斯会议是人工智能发展史上的里程碑事件。会议确立了"人工智能"这一术语,并规划了七大研究方向,包括自动计算机、神经网络、计算规模理论等,奠定了AI学科基础。会议期间诞生的首个AI程序"逻辑理论家"成功证明了数学定理,展示了机器智能的可能性。会议还形成了符号主义和连接主义两大研究流派,其引发的学术争论持续影响至今。参会者后来在美国顶尖高校建立了AI实验室,推动了学科建制化发展。达特茅斯会议开创的跨学科合作模式和对智能本质的探索精神,至今仍是AI研究的重要传统。
2025-09-28 20:45:19
1715
原创 AI大事记2:达特茅斯会议——人工智能学科诞生的历史性时刻(中)
1956年达特茅斯会议集结了人工智能领域的开拓者。四位核心发起人各具特色:约翰·麦卡锡提出"人工智能"概念并发明LISP语言;信息论之父克劳德·香农带来计算机下棋研究;马文·明斯基展示神经网络计算机SNARC;IBM技术先锋纳撒尼尔·罗切斯特贡献计算机视觉成果。会议还吸引了纽厄尔和西蒙(开发首个AI程序"逻辑理论家")、算法信息论先驱所罗门诺夫等30余位跨学科学者。这些先驱的多元背景和开创性工作奠定了人工智能作为交叉学科的基础,其理论贡献至今仍影响着AI发展。
2025-09-27 10:48:25
1117
原创 AI大事记2:达特茅斯会议——人工智能学科诞生的历史性时刻(上)
这张照片不仅是科学史的见证,也反映了当时的学术环境——参与者的着装(如香农的衬衫与领带)和背景建筑(达特茅斯大厅)成为后世研究AI起源的重要符号。这次看似普通的学术聚会,却在科学史上留下了浓墨重彩的一笔——它标志着人工智能作为一个独立研究领域的正式诞生,1956年也因此被称为"人工智能元年"。1948年,在读研究生的麦卡锡参加了加州理工大学主办的"行为的大脑机制西克森研讨会"。1950年,艾伦·图灵发表了著名的《计算机器与智能》论文,提出了"图灵测试",首次为判断机器是否具有智能提供了可操作的标准。
2025-09-27 10:20:06
1329
原创 AI大事记1:图灵测试(下)
本文探讨了图灵测试与机器学习的深层联系。图灵测试通过语言交流评估机器智能,为人工智能发展提供了理论基础。随后,机器学习先驱塞缪尔开发首个自学习程序,实现了计算机不经显式编程的学习能力。深度学习技术进一步推动了AI在图像、语音等领域的突破,但机器理解与人类思维的差异引发了哲学讨论。塞尔的中文房间思想实验揭示了图灵测试的局限性,促使研究者探索改进方法,如广义图灵测试和完全图灵测试。尽管当前AI已能通过图灵测试,但真正的智能理解仍是未来探索方向。图灵的遗产为AI发展奠定了重要基础,同时也带来了关于技术伦理和社会影
2025-09-26 22:28:22
1427
原创 AI大事记1:图灵测试(上)
2025年4月,加州大学圣地亚哥分校的研究震惊了AI界:在标准三方图灵测试中,GPT-4.5被误认为人类的概率高达73%,不仅超过了67%的人类基线,更远远甩开了早期AI的表现。这一成就标志着计算机终于实现了艾伦·图灵75年前的预言,同时也让我们不得不重新审视这位计算机科学先驱留下的宝贵遗产——图灵测试。
2025-09-26 22:00:25
1334
原创 人工智能发展简史10:百花齐放的大模型
【AI技术竞赛2025:全球巨头与国内大模型的巅峰对决】国际方面,OpenAI推出1.5万亿参数的GPT-5,在数学推理(94.6%AIME)、编程(ICPC满分)和多模态交互实现突破;Google的Gemini2.5采用液态神经网络,支持200万token上下文;Anthropic的Claude4以98.76%安全合规率成为行业标杆。国内阵营中,百度文心4.5首创多模态异构专家技术并全面开源;阿里通义Qwen3-Max以万亿参数登顶开源榜首,SWE测试达69.6分;DeepSeek V3.1通过混合精度训
2025-09-25 22:01:29
1634
1
原创 人工智能发展简史9:GPT 系列——从GPT-1 到 GPT-5 的进化之路
GPT系列是由OpenAI开发的专注于语言生成的AI模型,基于Transformer解码器架构,采用单向预训练方法。从GPT-1(2018)确立"预训练+微调"范式,到GPT-2(2019)实现零样本学习,再到GPT-3(2020)展现1750亿参数的强大上下文学习能力。ChatGPT(2022)通过对话优化和人类反馈强化学习实现类人交互,GPT-4(2023)则突破多模态理解和复杂推理。最新的GPT-5(2025)具备自主进化能力,在代码、数学、图像等领域达到人类专家水平,标志AI技术向实用化深度发展。
2025-09-25 21:07:03
955
原创 人工智能发展简史8:BERT——让 AI 学会 “双向看上下文“
2018年谷歌推出的BERT模型开创了自然语言处理新范式。该模型基于Transformer编码器,首次实现双向文本理解,通过"遮字猜词"和"判断连贯"两个预训练任务掌握深层语义。BERT提供BASE和LARGE两种规模,在GLUE等基准测试中表现卓越,部分指标超越人类水平。其突破性在于采用预训练-微调框架,使各类NLP任务可共享基础模型,大幅提升泛化能力。BERT不仅被应用于搜索引擎优化(如谷歌、美团),更推动了大模型时代的发展,为后续Transformer改进模型奠定基础。
2025-09-24 22:48:33
522
原创 人工智能发展简史7:技术基石——Transformer 架构的突破性创新
NLP技术经历了从低效到高效的突破性发展。传统RNN和LSTM处理序列数据缓慢且效果有限,而2017年提出的Transformer架构通过自注意力机制实现了并行计算,能高效捕捉长距离依赖关系。该架构让AI像人类一样"抓重点",理解上下文关联,为GPT等大模型奠定了基础。尽管存在计算复杂度高、资源需求大等局限,但通过改进位置编码、注意力机制等方式不断优化,推动了大语言模型的快速发展。
2025-09-24 22:39:42
950
原创 人工智能发展简史6:深度学习的产业应用爆发(2010 年代)
2010年代深度学习迎来产业应用爆发期,"深度学习三巨头"Hinton、LeCun和Bengio的突破性贡献获得2018年图灵奖。AlexNet(2012)和ResNet(2015)推动计算机视觉发展,GAN(2014)为AIGC奠定基础,TensorFlow/PyTorch等框架降低开发门槛。AlphaGo(2016)战胜李世石成为公众关注里程碑,展示了深度学习在复杂决策中的能力。这些突破推动深度学习在CV、NLP、语音识别和自动驾驶等领域的广泛应用。
2025-09-23 21:38:14
1284
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅