👀
一、前言
AI 模型训练是指通过数据驱动的方式,让人工智能(AI)系统从经验中学习,以便在给定的任务上进行预测、分类或生成等操作。这个过程通过优化模型的参数(如神经网络的权重和偏置)来最小化预测误差或损失,从而使模型能够在新数据上做出准确的判断,本文将介绍AI模型中神经网络和神经元的构造,以及AI训练的原理。
👀
二、AI 中的几个关键概念
生物神经网络
一个生物神经网络是由一组化学上相连或功能上相关的神经元组成。一个神经元可能与许多其他神经元相连,网络中的神经元和连接的总数可能很多。神经元之间的连接称为突触,通常是从轴突到树突形成的,尽管树突和其他连接是可能的。除了电信号外,还有其他形式的信号,这些信号来自于神经递质的扩散。整体工作流程如下:
1、外部刺激通过神经末梢,转化为电信号,转导到神经细胞(又叫神经元)。
2、无数神经元构成神经中枢。
3、神经中枢综合各种信号,做出判断。
4、人体根据神经中枢的指令,对外部刺激做出反应。
大脑神经元的数量、神经元之间的连接方式等会影响生物个体智力,例如人类成人的大脑大约包含 860 亿到 1000 亿 个神经元,猪的大脑大约包含 20 亿到 30 亿 个神经元,金鱼的大脑神经元数量较少,大约在 100 万到 300 万之间。
人工神经网络
人工神经网络是一种模拟人类大脑神经元连接方式的计算模型,主要用于处理和学习大量的数据,尤其是在模式识别、预测分析和分类任务中表现突出。它由大量互相连接的“神经元”(也称为节点)组成,每个神经元与其他神经元相连,形成一个复杂的网络结构。神经网络的核心思想是通过调整连接之间的“权重”来学习和优化模型,使其能根据输入数据产生正确的输出。
人工神经网络结构图
人工神经网络工作流程图
神经元
神经元节点内部主要做了什么?
特征与权重
上图的红框就代表一个神经元。它接受多个输入(a1,a2,a3…),产生一个输出(a),好比神经末梢感受各种外部环境的变化,最后产生电信号。其中最开始输入的 a1,a2,a3…就是特征,w1,w2,w3…就是权重,为什么要这么设计呢?假如如果评估一个人是否是美女,那么我们通常会怎么做?
1、通常需要确定多个审视条件。比如,头发长度,是否黑直长,单双眼皮,身材比例等等。这每一个条件,都会或多或少影响到真实的审美结果。对于这每一个条件,我们称其为“特征”(feature)。
2、仅有特征,是明显不够的,因为我们对于每一个特征来说,都有着不同的喜恶。比如你可能会觉得眼睛是你最为看重的一点,对于小眼睛女生会直接 PASS。又或者你可能会认为鼻梁挺不挺是次要的,如果是可爱的娃娃脸,塌鼻梁也可以接受,有的可能喜欢大长腿等等。对于这每一个喜恶的程度,我们可以称其为权重(weight)。
假如我们对一个需要评估的人提取了 6 个特征,分别是“眼睛,牙齿,体型,皮肤,颈部,额头,眉毛,笑容”。而现在我们也拍脑袋给了每一个特征对应的权重(比例) ,并且给定一个评分机制,从 0 分到 10 分进行打分,当然这个机制是完全客观的,上图针对刘亦菲汇总得出 7.4 分,针对凤姐可能就是其他得分了。通过上述机制就可以实现输入一个人给出对应的评分结果。
在实际 AI 场景中,特征就是输入对象的向量(向量其实就是对象在多个维度上的表示,例如眼睛,牙齿,体型,皮肤,颈部,额头,眉毛,笑容等);权重就是对应该维度在目标任务中的重要程度;最终评分和计算方法,就是神经元内计算输入得出输出的算法(根据任务不同有不同的算法)
神经元节点具体的工作机制:
接收输入(输入信号)
神经元节点首先接收来自前一层神经元的输入信号(或者原始数据)。这些输入可以是来自数据集的特征(例如图像的像素值、文本的词向量等),也可以是前一层神经元的输出。每个输入信号都带有一个“权重”(weight),权重是神经网络训练过程中调整的参数。
加权求和
每个神经元对收到的输入信号进行加权求和。简单来说,神经元对每个输入值乘以相应的权重,然后将结果加在一起。例如,对于神经元的输入向量 x1,x2,…,xn 和权重向量 w1,w2,…,wn,神经元的加权输入 z 为:z=w1⋅x1+w2⋅x2+⋯+wn⋅xn+b
其中,b 是偏置项(bias),它帮助模型调整输出的阈值。
激活函数(非线性变换)
加权求和的结果 z通常会被送入一个“激活函数”,以引入非线性。激活函数的作用是增加神经网络的表达能力,使其能够学习和处理复杂的模式,而不仅仅是线性关系。常见的激活函数有:
-
Sigmoid:将输出限制在 0 到 1 之间。
-
ReLU(Rectified Linear Unit):如果输入大于 0,则输出为输入值;否则,输出为 0。
-
Tanh:输出范围为 -1 到 1。
-
Softmax:常用于分类任务的输出层,将多维输入转换为概率分布。激活函数的应用可以帮助神经网络学习复杂的非线性模式,增强其表达能力。
输出
神经元的输出是激活函数计算后的结果。这个输出将作为下一层神经元的输入,或作为最终输出(在网络的最顶层)。神经元的输出可以通过网络的层层传递,逐渐变得更加抽象和有用。
👀
三、AI 模型训练的本质
通过上面内容可以知道,在 AI 模型中在网络结构固定的情况下,权重和偏置决定了神经网络的输出结果。训练过程的目标就是通过调整这些参数,使模型的预测更加准确。下面简要说明权重和偏置的修改过程,以及它们在训练中的作用。
1、前向传播(Forward Propagation)输入数据通过神经网络进行前向传播,经过每一层的计算后,最终得出预测输出。对应上图则是输入一张图片,最后输出识别结果。
2、计算损失(Loss Function)前向传播之后,网络会根据模型的输出 a 和真实标签 y 计算损失(误差),对应上图是输出的识别结果与真实值之间比较,例如是三个字都错了,还是只错了 1 个
3、反向传播(Backpropagation)需要将误差反向传递到网络的每一层,需要计算每一层网络的误差,这个过程是通过链式法则(Chain Rule)实现的。神经网络通常包含多层,每一层的输出都依赖于前一层的输出,因此在反向传播时,我们需要逐层计算每一层的误差
4、更新权重和偏置(Gradient Descent)一旦计算出了每个参数的梯度,就可以通过梯度下降算法来更新权重和偏置。梯度下降的基本思想是:如果损失函数的梯度(即误差)指向某个方向,我们就应该沿着相反的方向调整参数,以减小损失。
5、训练迭代(Epochs)训练过程中,神经网络会多次进行前向传播、计算损失、反向传播误差并更新权重和偏置。每一次完整的前向传播和反向传播过程叫做一个“epoch”。通常,训练过程会经历多个 epoch,直到模型收敛到较低的损失值,或者达到预设的最大迭代次数,这也是为什么训练过程比较长。
总结起来,AI模型训练就是经过多轮训练,不断的调整权重和偏置,让误差变小趋近于0,就像我们在电视上看到的综艺节目经常玩的一个小游戏,主持人拿出一款商品,让几位玩家去猜测这个物品的标签价会是多少。A:“1000”
主持人:“低了”
B:“2000”
主持人:“高了”
经历过很多次的猜测以后,最终 A 猜出了 1688 的价格,抱着吸尘器回家了
训练结束以后会生成权重文件,权重文件是存储神经网络中所有权重和偏置值的文件。训练过程中的权重文件记录了模型通过学习所获得的参数,这些权重和偏置决定了模型如何将输入数据映射到输出结果。具体作用:
-
保存训练好的模型:训练结束后,所有的权重和偏置都已经更新并最优化。权重文件保存了这些参数,这样在后续使用模型时,我们可以加载这些权重文件,避免每次都重新训练模型。
-
迁移学习:通过加载预训练模型的权重文件,我们可以在新的任务上继续训练(微调)。这样,预训练的模型就能利用已学到的特征,从而加快新任务的学习过程,尤其在数据较少时非常有效。
-
模型部署:在实际应用中,模型通常需要部署到生产环境中。此时,权重文件被用于加载训练好的模型,并执行推理(Inference),进行预测任务。
模型训练以后就要进入推理环节,这部分后续在更新说明。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈