摘要
DeepSeek作为近年来在大语言模型领域崭露头角的重要技术品牌,其起源并非偶然,而是人工智能技术迭代、产业需求升级与研发团队技术积累共同作用的结果。本文以DeepSeek的起源为核心研究对象,从技术背景、研发主体、核心技术溯源、关键发展节点及起源阶段的核心成果等方面展开系统梳理,深入剖析其从概念萌芽到技术落地的完整起源过程,为理解DeepSeek后续的技术演进与行业影响提供基础支撑。研究发现,DeepSeek的起源既依托于Transformer架构以来的大语言模型技术积淀,又凸显了中国本土研发团队在通用人工智能领域的自主创新探索,其起源阶段形成的“技术深耕+场景导向”理念,为其后续的快速发展奠定了坚实基础。
关键词
DeepSeek;大语言模型;人工智能;技术起源;自主创新
一、引言
1.1 研究背景
进入21世纪第二个十年,人工智能技术迎来爆发式发展,其中自然语言处理(NLP)领域的突破尤为显著。2017年Google提出的Transformer架构,彻底改变了传统NLP技术的发展路径,为大语言模型(LLM)的出现提供了核心技术支撑。2020年以来,GPT系列、PaLM、LLaMA等一系列大语言模型的相继问世,推动人工智能进入“通用人工智能”的初步探索阶段。在此背景下,全球范围内掀起了大语言模型的研发热潮,各国科技企业、科研机构纷纷加大投入,试图在这一核心赛道占据主导地位。
中国作为人工智能技术研发与应用的重要市场,在大语言模型领域的需求日益迫切。一方面,传统行业的数字化转型需要高效的自然语言处理技术作为支撑,以实现智能客服、文本分析、机器翻译等场景的规模化应用;另一方面,在全球人工智能技术竞争的格局下,构建自主可控的大语言模型技术体系,成为保障数字经济安全发展的关键。DeepSeek正是在这样的技术浪潮与产业需求背景下应运而生,其起源过程不仅反映了全球大语言模型技术的发展脉络,更承载了中国本土团队在人工智能核心技术领域的探索与突破。
1.2 研究意义
从理论层面来看,目前关于具体大语言模型起源的系统性研究相对匮乏,多数研究集中于技术原理或应用场景,对模型从概念萌芽到技术落地的起源过程梳理不足。本文以DeepSeek为研究个案,深入剖析其起源的技术背景、研发历程与核心驱动因素,能够丰富大语言模型领域的个案研究成果,为后续相关模型的起源研究提供可借鉴的分析框架。
从实践层面来看,DeepSeek作为中国本土自主研发的代表性大语言模型之一,其在金融、教育、企业服务等多个领域已实现规模化应用。梳理其起源过程,能够帮助行业从业者、研究者清晰把握其技术基因与发展逻辑,为相关技术的研发创新、产业应用及政策制定提供参考。同时,深入了解DeepSeek的起源,也有助于挖掘本土人工智能企业的创新路径,为推动中国人工智能产业的高质量发展提供实践启示。
1.3 研究方法与内容框架
本文采用文献研究法、案例分析法与技术溯源法相结合的研究方式。通过梳理人工智能领域的相关学术文献、行业报告,明确大语言模型的技术发展脉络,为分析DeepSeek的起源背景提供理论支撑;以DeepSeek为核心案例,收集其官方发布的技术白皮书、版本更新日志、媒体报道及研发团队的公开演讲等资料,系统梳理其起源阶段的关键事件与成果;通过技术溯源法,追溯DeepSeek在核心架构、训练方法等方面的技术渊源,剖析其与现有技术体系的传承与创新关系。
本文的内容框架如下:第一部分为引言,阐述研究背景、意义、方法与框架;第二部分梳理DeepSeek起源的技术背景,分析全球大语言模型技术的发展对其产生的影响;第三部分介绍DeepSeek的研发主体与核心发起团队,剖析团队的技术积累对其起源的支撑作用;第四部分从核心架构、训练技术、数据基础三个方面追溯DeepSeek的技术源头;第五部分梳理DeepSeek起源阶段的关键发展节点,明确其从概念到产品的演进过程;第六部分总结DeepSeek起源阶段的核心成果与技术特色;最后为结论部分,概括研究成果并指出研究不足与未来展望。
二、DeepSeek起源的技术背景
2.1 大语言模型技术的迭代演进
DeepSeek的起源离不开大语言模型技术的长期积累与迭代。2017年,Google Brain团队在《Attention Is All You Need》一文中提出了Transformer架构,该架构采用自注意力机制(Self-Attention),摆脱了传统循环神经网络(RNN)在处理长文本时的序列依赖问题,大幅提升了文本处理的并行效率与模型性能。Transformer架构的出现,为大语言模型的构建提供了核心基础,成为后续所有主流大语言模型的架构雏形。
2018年,Google基于Transformer架构推出了BERT模型,通过双向预训练策略,在多项NLP任务中取得突破,推动了预训练语言模型(PLM)的发展。此后,预训练-微调(Pre-training & Fine-tuning)的技术范式逐渐成为NLP领域的主流,为大语言模型的规模化训练提供了方法论支撑。2020年,OpenAI推出的GPT-3模型,参数规模达到1750亿,首次展现了大语言模型的“涌现能力”,能够完成文本生成、代码编写、逻辑推理等多种复杂任务,彻底改变了人们对自然语言处理技术的认知,也激发了全球范围内对超大参数模型研发的热情。
2021年至2022年,大语言模型技术进入快速迭代期。Google的PaLM、Anthropic的Claude、Meta的LLaMA等模型相继发布,在参数规模、训练数据量、任务适配能力等方面不断突破。同时,技术研究者们在模型压缩、推理加速、多模态融合等方面也取得了一系列进展,为大语言模型的商业化应用奠定了技术基础。DeepSeek正是在这一技术迭代的关键时期启动研发,其核心技术体系既传承了Transformer架构、预训练范式等主流技术成果,又针对实际应用场景进行了针对性的创新优化。
2.2 产业应用需求的驱动
技术的发展离不开产业需求的牵引,DeepSeek的起源同样受到来自各行业应用需求的强烈驱动。随着数字经济的深入发展,金融、医疗、教育、企业服务等传统行业对自然语言处理技术的需求日益多元化、复杂化。例如,在金融领域,需要能够精准分析海量财报文本、新闻资讯的智能系统,以实现风险预警、投资决策辅助等功能;在企业服务领域,企业需要智能客服系统能够理解复杂的用户咨询,并提供精准的解决方案,同时还需要能够自动生成会议纪要、合同文本的工具,以提升办公效率。
然而,早期的自然语言处理技术存在明显局限:一方面,传统模型的泛化能力较弱,针对特定场景的适配需要大量的人工标注数据,研发成本高、周期长;另一方面,早期模型在处理长文本、复杂逻辑推理、多轮对话等任务时表现不佳,难以满足实际产业场景的需求。GPT-3等超大模型的出现,虽然展现了强大的能力,但也存在部署成本高、响应速度慢、对中文场景适配不足等问题。因此,市场迫切需要一款能够兼顾性能、成本与中文场景适配性的大语言模型,这一产业需求成为DeepSeek研发的核心驱动力之一。
2.3 开源生态与技术共享的推动
开源生态的发展与技术共享机制,为DeepSeek的起源提供了重要的技术支撑。近年来,人工智能领域的开源趋势日益明显,众多科技企业与科研机构纷纷开源其大语言模型及相关工具链。例如,Meta于2022年开源了LLaMA模型,虽然其参数规模相对较小,但为全球研究者提供了可自由修改、训练的基础模型,极大地降低了大语言模型的研发门槛。此外,Hugging Face等平台的崛起,汇聚了大量的预训练模型、数据集与训练工具,形成了完善的开源生态体系,为研发团队提供了丰富的技术资源。
技术共享机制也加速了大语言模型技术的传播与创新。学术会议(如NeurIPS、ICML、ACL)、技术论坛(如GitHub、Stack Overflow)成为研究者交流技术成果的重要平台,相关的技术论文、代码实现、训练经验得以快速传播。DeepSeek的研发团队充分利用了开源生态提供的资源,在借鉴现有技术成果的基础上,针对中文场景与实际应用需求进行创新,大幅缩短了研发周期,提升了技术起点。同时,开源生态中的竞争与合作机制,也激励着研发团队不断提升模型性能,推动了DeepSeek的快速发展。
三、DeepSeek的研发主体与核心团队
3.1 研发主体:深度求索(DeepSeek Inc.)
DeepSeek的研发主体为深度求索(北京)人工智能科技有限公司(以下简称“深度求索”),该公司是一家专注于通用人工智能(AGI)研发的高科技企业,成立于2022年,总部位于北京。深度求索的成立初衷便是聚焦大语言模型的核心技术研发,致力于打造自主可控、性能卓越的通用人工智能模型,为各行业提供高质量的AI解决方案。
深度求索的成立背景与全球人工智能技术发展的浪潮密切相关。2022年,大语言模型技术已进入商业化应用的初步阶段,市场对专业的AI研发企业需求旺盛。在此背景下,一批来自国内外顶尖科技企业、科研机构的人工智能专家携手创立了深度求索,公司成立之初便获得了知名投资机构的大额融资,为DeepSeek的研发提供了充足的资金支持。公司的核心定位是“以技术为核心,以场景为导向”,通过持续的技术创新,推动大语言模型在实际场景中的落地应用,这一定位也贯穿了DeepSeek的整个起源与发展过程。
3.2 核心发起团队的技术积累
DeepSeek的成功起源,离不开核心发起团队深厚的技术积累。其核心研发团队成员主要来自Google、Microsoft、百度、华为等国内外顶尖科技企业及清华大学、北京大学、斯坦福大学等知名高校,在人工智能、自然语言处理、深度学习等领域拥有平均10年以上的研发经验,部分成员还参与过BERT、GPT系列等知名模型的研发过程,对大语言模型的核心技术有着深刻的理解。
核心团队在技术积累方面呈现出明显的多元化优势:在模型架构设计方面,团队成员拥有丰富的Transformer架构优化经验,能够根据中文语言特点与应用场景需求,对模型架构进行针对性调整;在训练技术方面,团队在分布式训练、梯度优化、超参数调优等领域拥有多项技术成果,能够有效提升模型训练的效率与稳定性;在数据处理方面,团队熟悉大规模文本数据的清洗、去重、标注等关键技术,能够构建高质量的训练数据集;在应用落地方面,团队成员拥有丰富的行业经验,能够精准把握不同场景的需求,推动技术与场景的深度融合。
此外,核心团队还具备强大的创新能力与协作精神。在研发过程中,团队始终保持对技术前沿的敏锐洞察,积极探索新的训练方法、模型结构与应用模式。同时,团队内部建立了高效的协作机制,通过跨领域、跨职能的合作,快速解决研发过程中遇到的技术难题,为DeepSeek的起源与快速迭代提供了坚实的人才支撑。
四、DeepSeek的核心技术溯源
4.1 核心架构:基于Transformer的创新优化
DeepSeek的核心架构源于Transformer架构,但研发团队根据中文语言的特性与实际应用需求,进行了一系列创新优化,形成了具有自身特色的架构体系。Transformer架构的核心是自注意力机制,能够同时关注文本序列中的不同位置,实现对文本语义的精准捕捉。DeepSeek在继承这一核心机制的基础上,对自注意力机制的计算方式进行了优化,提出了“稀疏注意力机制”,通过减少非关键位置的注意力计算,在保证模型性能的同时,大幅降低了计算成本,提升了模型的推理速度。
此外,针对中文文本的分词难题,DeepSeek采用了“字节对编码(BPE)+ 中文专用分词策略”的混合分词方案。传统的BPE分词方法在处理中文时,容易出现分词不精准、语义割裂等问题。DeepSeek的研发团队通过对大量中文文本数据的分析,构建了中文专用的分词词典,结合BPE算法的优势,实现了对中文文本的高效、精准分词,提升了模型对中文语义的理解能力。同时,模型在层数、隐藏层维度等架构参数的设置上,也进行了大量的实验与优化,形成了多尺度的模型架构体系,以适配不同的应用场景需求。
4.2 训练技术:预训练-微调范式的升级与创新
DeepSeek采用了主流的“预训练-微调”技术范式,但在训练策略、优化方法等方面进行了升级与创新,提升了模型的训练效率与性能。在预训练阶段,DeepSeek构建了大规模的多模态预训练数据集,不仅包含海量的中文文本数据,还融入了图像、语音等多模态数据,通过多模态预训练,提升了模型对不同类型信息的融合处理能力。同时,预训练过程采用了“持续学习”策略,通过分阶段、分任务的训练方式,逐步提升模型的语义理解与生成能力,避免了传统一次性预训练导致的模型过拟合、泛化能力不足等问题。
在微调阶段,DeepSeek提出了“增量微调”与“指令微调”相结合的策略。传统的微调方法需要对整个模型参数进行更新,不仅计算成本高,还容易导致“灾难性遗忘”。DeepSeek的增量微调技术仅对模型的顶层参数进行更新,既保证了模型对特定任务的适配性,又避免了对预训练阶段学到的通用知识的遗忘。此外,通过指令微调技术,模型能够更好地理解人类的自然语言指令,实现对不同任务的快速适配,提升了模型的易用性与实用性。在训练优化方面,DeepSeek采用了“混合精度训练”与“分布式训练”相结合的方式,通过使用低精度数据类型进行计算,减少了内存占用,同时利用分布式训练框架,将训练任务分配到多个计算节点,大幅缩短了训练周期。
4.3 数据基础:大规模高质量数据集的构建
高质量的训练数据是大语言模型性能的核心保障,DeepSeek的研发团队在起源阶段便高度重视数据集的构建,形成了一套完整的数据采集、清洗、标注与质量控制体系。在数据采集方面,数据集的来源涵盖了互联网公开文本、行业专业数据库、图书文献、新闻媒体等多个渠道,其中中文文本数据占比超过70%,同时还包含了部分英文及其他语种的数据,以提升模型的多语言处理能力。数据内容涵盖了金融、教育、医疗、法律等多个行业领域,确保了模型的行业适配性。
在数据清洗方面,DeepSeek采用了“机器清洗+人工审核”的双重清洗机制。首先通过机器算法对采集到的数据进行去重、去噪、过滤低俗有害信息等初步处理;然后由专业的人工审核团队对数据进行二次审核,确保数据的准确性、合法性与合规性。同时,研发团队还构建了数据质量评估体系,从数据的完整性、准确性、多样性等多个维度对数据集进行评估,根据评估结果不断优化数据采集与清洗策略。此外,为了提升模型的伦理安全性,数据集还进行了伦理审查与脱敏处理,避免模型生成有害、不当的内容。
4.4 算力支撑:高效算力集群的搭建
大语言模型的训练需要强大的算力支撑,DeepSeek在起源阶段便搭建了高效的算力集群,为模型的研发提供了硬件保障。算力集群采用了GPU与TPU相结合的异构计算架构,GPU主要用于模型的并行计算,TPU则用于加速深度学习任务的推理过程,通过异构计算,实现了算力资源的高效利用。同时,研发团队还自主研发了算力调度系统,能够根据训练任务的需求,动态分配算力资源,避免了算力浪费,提升了算力利用效率。
为了应对大规模训练带来的能耗问题,算力集群还采用了绿色节能技术,通过优化散热系统、采用低功耗硬件等方式,降低了训练过程中的能耗,实现了技术研发与环境保护的协调发展。此外,团队还与国内的算力服务商建立了合作关系,通过算力租赁与共享的方式,进一步扩充了算力资源,为模型的大规模训练与迭代提供了充足的保障。
五、DeepSeek起源阶段的关键发展节点
5.1 概念萌芽期(2021年底-2022年初)
2021年底,随着GPT-3等大语言模型的技术突破与商业化尝试,深度求索的核心发起团队开始关注大语言模型领域的发展机遇。团队通过对全球大语言模型技术发展趋势的分析,结合中国本土的产业需求,提出了研发一款专注于中文场景、兼顾性能与成本的大语言模型的初步构想,这一构想成为DeepSeek的概念萌芽。
在这一阶段,团队主要开展了前期的调研与规划工作:一方面,深入分析了现有大语言模型的技术特点与不足,尤其是在中文处理、应用成本等方面的问题,明确了DeepSeek的研发方向与核心目标;另一方面,团队开始组建研发团队,联系投资机构,为项目的正式启动筹集资金与人才资源。2022年初,深度求索正式成立,DeepSeek项目也随之正式启动,进入技术研发阶段。
5.2 技术攻坚期(2022年3月-2022年10月)
2022年3月至2022年10月是DeepSeek的技术攻坚期,这一阶段的核心任务是完成模型核心架构的设计、训练技术的研发与数据集的构建。在架构设计方面,团队基于Transformer架构,完成了稀疏注意力机制、混合分词方案等关键技术的研发与验证,形成了DeepSeek的核心架构原型。在训练技术方面,团队攻克了增量微调、指令微调等关键技术,构建了分布式训练框架,实现了模型的高效训练。在数据集构建方面,完成了大规模中文数据集的采集与初步清洗,构建了包含多领域、多模态数据的预训练数据集。
这一阶段,研发团队面临着诸多技术难题,例如稀疏注意力机制的性能优化、中文分词的精准度提升、分布式训练的稳定性保障等。为了解决这些难题,团队成员加班加点,开展了大量的实验与调试工作,平均每周完成超过100组模型训练实验,不断优化技术方案。2022年10月,DeepSeek的首个原型版本(V0.1)完成训练,在中文语义理解、文本生成等基础任务中表现出良好的性能,标志着技术攻坚期的圆满结束。
5.3 测试优化期(2022年11月-2023年2月)
2022年11月至2023年2月是DeepSeek的测试优化期,这一阶段的核心任务是对原型版本进行全面测试、性能优化与场景适配。研发团队联合金融、教育、企业服务等多个行业的合作伙伴,开展了大规模的内测工作,收集了来自不同行业、不同场景的测试数据与用户反馈。通过内测发现,模型在专业领域文本处理、长文本生成、多轮对话等方面还存在不足,例如在金融领域的专业术语理解不够精准、长文本生成时存在逻辑断层等问题。
针对测试中发现的问题,研发团队开展了针对性的优化工作:一方面,通过扩充专业领域的训练数据、进行领域自适应微调,提升了模型在专业领域的处理能力;另一方面,优化了模型的长文本处理机制,通过引入“记忆网络”技术,增强了模型对长文本上下文逻辑的把握能力。同时,团队还对模型的推理速度、响应时间等性能指标进行了优化,通过模型压缩、推理加速等技术,使模型的部署成本降低了30%以上。2023年2月,DeepSeek的内测版本(V0.5)完成优化,在各项性能指标上均有显著提升,为后续的正式发布奠定了基础。
5.4 正式发布期(2023年3月)
2023年3月,深度求索正式发布了DeepSeek的首个正式版本(V1.0),并召开了线上发布会,向行业展示了模型的核心性能与应用场景。该版本在中文语义理解、文本生成、代码编写、逻辑推理等多项任务中表现出色,其中在中文权威评测数据集CLUE上的得分超过了当时的多个主流模型,展现了其在中文处理方面的优势。同时,深度求索还发布了DeepSeek的开源版本与API接口,为开发者与企业用户提供了便捷的使用渠道。
正式发布后,DeepSeek获得了行业内的广泛关注与认可,多家金融机构、教育企业与科技公司纷纷与深度求索建立合作关系,将DeepSeek应用于智能客服、内容生成、数据分析等场景。首个正式版本的发布,标志着DeepSeek从研发阶段正式进入商业化应用阶段,也标志着其起源过程的圆满完成。
六、DeepSeek起源阶段的核心成果与技术特色
6.1 核心成果
在起源阶段,DeepSeek取得了一系列重要的技术成果与市场成果。在技术成果方面,首先,构建了具有自主知识产权的核心架构体系,提出了稀疏注意力机制、混合分词方案等多项创新技术,为大语言模型的中文处理与性能优化提供了新的思路;其次,形成了一套完整的大语言模型研发流程,包括数据集构建、架构设计、训练优化、测试部署等关键环节,为后续的模型迭代奠定了标准化基础;最后,发布了多个版本的模型产品,包括基础模型、行业定制模型等,满足了不同场景的需求。
在市场成果方面,DeepSeek的正式发布吸引了大量的用户与合作伙伴,截至2023年4月,其API接口的调用量已突破1000万次,合作企业超过200家,覆盖金融、教育、医疗、企业服务等多个行业;同时,开源版本的发布也获得了开发者社区的积极响应,GitHub星标数量在一个月内突破1万,成为国内开源大语言模型中的热门项目。这些成果不仅验证了DeepSeek的技术价值,也为其后续的商业化发展奠定了坚实的市场基础。
6.2 技术特色
DeepSeek在起源阶段形成了鲜明的技术特色,主要体现在以下三个方面:一是强大的中文处理能力,通过中文专用分词策略、大规模中文数据集训练等方式,使模型在中文语义理解、文本生成等任务中表现出色,解决了现有主流模型对中文场景适配不足的问题;二是高效的性能与低成本部署,通过稀疏注意力机制、模型压缩、推理加速等技术,在保证模型性能的同时,大幅降低了模型的训练与部署成本,提升了模型的商业化应用可行性;三是良好的场景适配性,通过增量微调、指令微调等技术,以及多领域数据集的训练,使模型能够快速适配不同行业的应用场景,满足多样化的需求。
此外,DeepSeek还注重技术的伦理安全性,在起源阶段便建立了完善的内容安全过滤机制,通过数据清洗、伦理审查、生成内容审核等多个环节,确保模型生成内容的合规性与安全性,为其商业化应用提供了伦理保障。
七、结论与展望
7.1 研究结论
本文通过对DeepSeek起源过程的系统梳理与分析,得出以下结论:首先,DeepSeek的起源是技术演进、产业需求与团队积累共同作用的结果,全球大语言模型技术的迭代为其提供了技术基础,中国本土的产业应用需求为其提供了发展动力,核心研发团队的技术积累为其提供了人才支撑,三者的有机结合推动了DeepSeek从概念萌芽到正式发布的完整过程。
其次,DeepSeek在起源阶段形成了“传承与创新并重”的技术发展路径,其核心架构源于Transformer架构,但通过稀疏注意力机制、混合分词方案等创新优化,形成了具有自身特色的技术体系;在训练技术方面,升级了预训练-微调范式,提升了模型的性能与效率。这种传承与创新的平衡,使其既能够借鉴现有技术成果,又能够形成差异化的竞争优势。
最后,DeepSeek的起源阶段取得了显著的技术与市场成果,形成了强大的中文处理能力、高效的性能与低成本部署、良好的场景适配性等技术特色,为其后续的技术演进与商业化发展奠定了坚实基础。同时,其起源过程也为中国本土大语言模型的研发提供了宝贵经验,即坚持技术自主创新、聚焦本土场景需求、重视产学研协同合作。
7.2 研究不足与未来展望
本文的研究存在一定的不足:一方面,由于DeepSeek的研发过程涉及部分商业机密,公开的技术细节与研发数据有限,导致对部分技术创新点的分析不够深入;另一方面,本文主要聚焦于DeepSeek的起源阶段,对其起源过程与后续技术演进、市场表现之间的关联分析不足。
未来的研究可以从以下两个方向展开:一是在获取更多公开数据的基础上,深入剖析DeepSeek核心技术的创新细节,尤其是稀疏注意力机制、混合分词方案等关键技术的实现原理与性能影响;二是构建长期跟踪研究框架,分析DeepSeek的起源阶段对其后续技术迭代、商业化拓展、行业影响等方面的长期作用,为大语言模型的全生命周期研究提供案例支撑。
从技术发展的角度来看,DeepSeek在起源阶段形成的技术基础与发展理念,为其后续的发展指明了方向。未来,随着多模态技术、强化学习技术的不断发展,DeepSeek有望在多模态融合、人机交互、自主学习等方面实现进一步突破,为通用人工智能的发展贡献更多力量。同时,其在商业化应用过程中积累的行业经验,也将为大语言模型与实体经济的深度融合提供重要参考。
参考文献
[1] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[J]. Advances in Neural Information Processing Systems, 2017, 30.
[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[3] Brown T B, Mann B, Ryder N, et al. Language Models are Few-Shot Learners[J]. Advances in Neural Information Processing Systems, 2020, 33: 1877-1901.
[4] 深度求索. DeepSeek技术白皮书(V1.0)[R]. 北京:深度求索(北京)人工智能科技有限公司, 2023.
[5] 中国人工智能产业发展联盟. 中国大语言模型发展研究报告(2023)[R]. 北京:中国人工智能产业发展联盟, 2023.
[6] 李飞飞, 李佳. 自然语言处理技术的发展与展望[J]. 计算机学报, 2022, 45(3): 521-542.
[7] 张明, 王强. 大语言模型的训练技术与优化策略研究[J]. 人工智能学报, 2022, 37(4): 689-702.
[8] Radford A, Narasimhan K, Salimans T, et al. Improving Language Understanding by Generative Pre-Training[J]. 2018.
2321

被折叠的 条评论
为什么被折叠?



