“ 特征提取是神经网络的核心能力之一,但其复杂程度远没有想象中的那么简单 ”
在之前的文章编码器和解码器中介绍了编码器和解码器的核心功能之——特征提取和特征重建;编码器的核心任务是特征提取,而解码器的核心任务是特征重建。
但除开模型设计者也就是神经网络设计者之外,对大模型的使用者来说,大模型就是一个黑盒模型;用户只需要给定输入,大模型就可以根据训练结果给出相对应的数据输出。
因此对使用者来说,大模型内的一切都是不可见的;而且由于大模型的训练和微调都是由神经网络自身完成的,因此包括神经网络设计者在内;没人知道大模型的内部到底是怎么运作的;这也是为什么大模型缺乏可解释性的原因之一。
大模型的特征提取
要想了解大模型的特征提取,首先要明白一个概念就是——什么是特征?
事实上我们每时每刻都在接触不同的特征,比如说我们每天睁眼看到的东西,我们使用的物品,我们认识的人。
先来回答一个问题,我们是怎么区分不同的人和物的?
答案就是通过特征,比如苹果和香蕉的特征不一样;男人和女人的特征也不一样,你的朋友和其他人的特征也不一样。
所以,我们的大脑就是通过我们的五感输入的信息,然后通过提取特征来区分不同的人和物。
再回到人工智能领域,大模型是怎么提取特征的?
在深度学习爆火之前,特征提取并不是由神经网络自身来完成的;在那时的机器学习领域,特征提取是由业内的专家人士,通过自己的一套方法论来进行特征提取。
这种方式的好处是特征提取的可解释性,因为特征提取的全部流程都是由人类的完成的;因此这些专家可以给你解释为什么要提取这个特征,以及怎么提取这个特征。
但在神经网络模型爆火之后,所有的特征提取都是由模型自身来完成;虽然神经网络是由人类自己设计的,但人类也并不完全了解里面到底发生了什么;这也是为什么部分人担心大模型安全问题的原因之一。因为它是完全不可控的。
但从另一方面来说,由于神经网络中的特征是模型在学习中逐渐生成的;所以这些特征没有人为的干预,特征的分布更加客观,更有利于模型进行分类和回归;这一点是人工特征提取所无法比拟的。
传统的特征提取方法是通过人工提取而来,人工神经网络中的特征是通过网络层计算得来的,最简单的特征提取方法就是在确定好数据标签y’后,通过反向传播算法和线性层来提取特征,比如y=wx+b,其中y是输出值,x是固定输入,w是权重,b是偏差,w和b都会随着模型的反向传播不断更新。一般通过损失函数E=1/2(y-y’)求得损失,然后通过反向传播算法降低损失E,由于损失函数中的y’是固定的,只有改变输出y,让y和y’越来越接近,才能够达到我们的目的,而改变y的值回到了前向输出公式y=wx+b上,在这个公式中,能够改变的值就只有w和b,所以最终我们通过改变w和b的值让输出的y发生变化,让其和标签y’更加接近。可见,在输入x不变的前提下,w和b的改变会让输出y有越来越接近标签y’。
从理论上来说,在网络层较浅时,提取到的特征不会有很强的标准性,这里的标志性指的是特征对原始数据的代表性。而到了神经网络层数越深的时候,模型提取到的特征会更具代表性;简单来说就是网络层数越深,模型能够解决的任务越复杂,这也是为什么说网络模型越深,能力越强。
神经网络的快速发展是最近这几年才大规模开始的,关于神经网络特征的理解,也是仁者见仁,智者见智,但是总体的目标是不变的,那就是朝着越来越高效的特征提取方向发展。不管是以前的CNN模型,还是这两年的transformers模型,以及提出的各种注意力的方法,都是在设计怎么去除掉对于当前任务无关的冗余信息,增加对于当前任务有用的信息权重,从而实现特征的高效提取,以达到快速高效的完成任务。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈