大模型开发
文章平均质量分 92
大模型实战开发
人生百态,人生如梦
只为大家分享一些自己的学习路线和有用的东西,让大家学到有用的东西。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AI大模型开发——7.百度千帆大模型调用
在 AI蓬勃发展的时代, 大模型平台作为支撑大规模数据处理和复杂模型训练的基石, 正逐渐成为推动科技创新和产业升级的重要力量。千帆大模型平台, 凭借其卓越的性能、灵活的应用和强大的生态系统,已成为众多企业和研究机构首选的大模型解决方案。千帆大模型平台是一个集数据处理、模型训练、推理部署于一体的综合性平台,它提供了丰富的算法库和工具集, 支持多种深度学习框架, 能够轻松应对各种复杂的数据处理和模型训练任务。平台采用分布式计算架构,能够充分利用多节点计算资源, 以实现高效的大规模数据训练和推理。原创 2024-08-22 21:43:04 · 11492 阅读 · 1 评论 -
AI大模型开发——1.基础概念和环境配置
在过去的几年里, AI大模型已经成为AI领域的一个热门话题, 它们的能力在多个应用领域得到了空前的发展。但是, AI大模型究竟是什么?它们为什么如此重要?又是如何工作的呢?AI大模型,简而言之, 是一类具有大量参数的深度学习模型, 它们能够在大规模数据集上进行训练, 学习丰富的数据表示和复杂的模式。与早期的机器学习模型相比, 这些大模型通过其庞大的规模,能够捕获更为细致和深入的数据特征,从而在NLP、图像识别、语音识别等多个领域实现突破性的性能。AI大模型的核心特征包括其规模、能力和灵活性。原创 2024-08-21 14:43:54 · 1363 阅读 · 0 评论 -
AI大模型开发——transformer模型超全完整版(0基础可懂)
为了更深入的了解transformer模型,我们首先从transformer的诞生聊起吧。transformer在2017年由Vaswani等人首次提出,它摒弃了之前流行的循环神经网络和卷积神经网络的架构,引入了自注意力机制( Self-Attention),显著提高了处理序列数据的能力和效率。transformer模型的这种设计使其在处理长距离依赖问题时, 相比于传统的循环神经网络和长短期记忆网络(LSTM)表现得更加出色,至此, 开启了NLP技术的新篇章。原创 2024-08-18 13:00:00 · 1953 阅读 · 0 评论 -
AI大模型开发——6.transformer模型(0基础也可懂)(3)
transformer模型的解码器是负责生成输出序列的部分,它采用与编码器相似但更复杂的结构,以适应序列生成的需求。解码器通过一系列的层来处理信息, 每一层都执行特定的功能, 包括输出嵌入、位置编码、掩蔽自注意力、编码器-解码器注意力、前馈神经网络以及残差连接和层归一化。以下是解码器执行步骤的详细说明。1 输出嵌入 ( Output Embedding)解码器的第一步是将其输入序列(即之前生成的输出序列)转换成高维空间中的向量表示。原创 2024-08-17 18:20:27 · 1078 阅读 · 0 评论 -
AI大模型开发——5.transformer模型(0基础也可懂)(2)
transformer模型的编码器构成了模型处理输入数据的基础部分。编码器的设计使其能够处理复杂的序列数据, 捕获序列内部的细粒度依赖关系。它通过一系列的层来实现, 每一层都包含自注意力机制、残差连接( Residual Connection )、层归一化( Layer Normalization)以及前馈神经网络等关键组件。以下是编码器的执行步骤, 详细解释了从自注意力机制开始的过程。原创 2024-08-16 17:58:58 · 1287 阅读 · 0 评论 -
AI大模型开发——4.transformer模型(0基础也可懂)(1)
为了更深入的了解transformer模型,我们首先从transformer的诞生聊起吧。transformer在2017年由Vaswani等人首次提出,它摒弃了之前流行的循环神经网络和卷积神经网络的架构,引入了自注意力机制( Self-Attention),显著提高了处理序列数据的能力和效率。transformer模型的这种设计使其在处理长距离依赖问题时, 相比于传统的循环神经网络和长短期记忆网络(LSTM)表现得更加出色,至此, 开启了NLP技术的新篇章。原创 2024-08-15 21:02:32 · 1868 阅读 · 0 评论 -
AI大模型开发——3.深度学习基础(2)
损失函数( Loss Functions), 也称为代价函数, 是用于评估模型预测值与真实值之间差异的函数。在神经网络训练过程中,损失函数用于指导模型参数的更新方向和幅度, 以使模型预测的结果尽可能接近真实值。常见的损失函数有以下两个。(1) 均方误差( Mean Squared Error, MSE), 其公式如下:其中,是样本i的真实值,是模型预测值, n是样本数量。MSE是衡量模型预测值与真实值差异的一种方式, 通过计算预测值与实际值差的平方后, 取平均得到。原创 2024-08-11 14:26:49 · 1827 阅读 · 0 评论 -
AI大模型开发——2.深度学习基础(1)
什么是深度学习?首先深度学习是机器学习的一个分支,是通过模拟人脑的神经网络结构来进行模式识别和学习。他在语音识别、图像识别,NLP以及其他很多领域展现了前所未有的性能,其中大语言模型是其NLP领域的一大应用。深度学习技术的核心技术在于深度神经网络,这种神经网络由多层的神经元组成,能够自动的从大量数据中学习复杂的表示,每一层都从前一层学习到的信息中提取到更高级的特征,这种层次化提取方法使得深度学习在处理大量非结构化数据(如图像、音频和文本)时表现出色。原创 2024-08-10 19:08:37 · 1946 阅读 · 0 评论
分享