大模型理论基础
文章平均质量分 93
大模型技术基础方法学习与研究
maximejia
在科学上没有平坦的大道,只有不畏辛苦沿着陡峭山路攀登的人,才有希望达到光辉的顶点。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型基础理论学习笔记——大模型数据
本文主要介绍了支撑大模型的数据集构建及处理方面的内容,主要包括已有的庞大的网络数据和私有数据、有效且有目的的进行数据的过滤和策划、以及策划非网络的高质量数据集的必要性。同时,简要讨论了关于数据的全生命周期管理,包括数据集文档的构建和维护,以及数据治理、数据尊严等数据生态等方面。这些内容可为面向大模型的训练数据集构建的研究和实现提供基础知识支撑。原创 2024-01-21 20:22:47 · 1576 阅读 · 0 评论 -
大模型基础理论学习笔记——大模型有害性
本文主要介绍了大模型,特别是大语言模型可能带来的有害性,主要涉及了(1)大模型可能的行为伤害,包括性能差异相关的危害、社会偏见和刻板印象相关的危害等,探讨了这些可能带来的伤害的原因以及有效削减或解决这些伤害的方法。(2)大模型的有毒性与虚假信息,对大模型在无提示、有提示情况下所表现出的有毒性输出,以及可以减轻有毒性的典型方法进行了讨论。同时,也对大模型用来提供虚假信息以及防护方面的工作进行了介绍。原创 2024-01-28 22:49:15 · 2403 阅读 · 0 评论 -
大模型基础理论学习笔记——大模型适配
本文主要介绍了大模型适配的基础要素(包括预训练模型、下游任务数据集、适配参数、任务损失函数以及优化问题等)、大模型适配的主流方法,主要包括探针方法、微调方法和轻量级微调方法,参考原始论文及扩展文献,对上述主流方法的实现原理进行了深入探讨,并介绍了各个方法的特征及适用问题范围。后续,在大模型基础理论方面的学习完成后,拟进行进一步实践研究,基于现有工作,研究大模型的预训练与微调等的落地实践,以及对灵活扩展应用的探索。原创 2024-01-26 01:45:06 · 3483 阅读 · 1 评论 -
大模型基础理论学习笔记——大模型训练
本文主要介绍了大模型训练(主要是预训练)方法,包括目标函数和优化算法连个部分。在目标函数部分,按照是否包含编码器、解码器划分的三类语言模型,参考原始论文,对三类不同架构模型的训练数据构建、训练过程、训练方法、以及训练目标函数设定进行了探讨,一方面,回顾了三类模型的典型架构,另一方面,探讨了三类架构模型的预训练方法,对基于Transformer架构的大模型预训练过程有了进一步清晰的梳理。在优化算法部分,简要讨论了以随机梯度下降为代表的几种常用深度神经网络参数优化算法,浅析了参数更新过程和各个算法的优劣与特性,原创 2024-01-23 23:08:46 · 3833 阅读 · 1 评论 -
大模型基础理论学习笔记——大模型能力
本文主要深入探讨GPT-3大语言模型,这个具有代表性的语言模型的能力。一方面,本文介绍了语言模型适应性、评估与评价的关键指标,另一方面,本文也讨论了基于GPT-3论文中的基准测试,对GPT-3的能力进行了探讨。原创 2024-01-17 01:20:27 · 1259 阅读 · 0 评论 -
大模型基础理论学习笔记——大模型基础
本文对语言大模型,特别是自回归语言大模型的基础进行了简介,以支撑后续对大模型技术的深入研究与探讨。原创 2024-01-16 00:29:34 · 1802 阅读 · 1 评论 -
大模型基础理论学习笔记——大模型法律
本文主要介绍了部分大模型有关的法律法规,主要围绕大型语言模型的生命周期中的“数据”和“应用”两个部分进行讨论。在相关法律法规方面,主要以美国相关法案为依据,讨论了版权法以及隐私法律的一些法案。大语言模型的生成性可能会对争论公平使用提出挑战(可以与人类竞争)。在什么水平上进行调控(语言模型还是下游应用)是有意义的,如何控制才是最有效的,仍需要深入的法律和人工智能专业知识支撑做出明智的决定。原创 2024-01-29 22:23:47 · 1467 阅读 · 0 评论 -
大模型基础理论学习笔记——分布式训练
本文主要介绍了深度学习分布式训练,从大模型训练的角度出发,讨论了深度神经网络分布式训练的缘起,常见的分布式训练策略,具体包括数据分布式、模型分布式和混合分布式,以及各种分布式策略的适用范围和使用方式。同时,我们还对基于Pytorch的数据分布式训练模式进行了探索,一方面,介绍了其具体原理,另一方面,也通过对代码的研读展现了具体实现过程,为后续实际开展分布式训练奠定基础。原创 2024-01-27 18:48:40 · 7425 阅读 · 0 评论
分享