AI学习系列01-人工智能基础学习笔记-优快云博客

写在前面：大模型是近年来被证明非常有效的一条AI实现技术路径，归属于人工智能的算法机器学习范畴，而其应用也是AI最广泛的。学习大模型以及大模型相关的AI应用之前，先要对人工智能这门学科有基础认知。

人工智能（Artificial Intelligence，简称 AI）是一门研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的学科。其核心目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作，例如学习、推理、感知、决策等。

一、人工智能发展史

诞生前夜（1950年前）

历史可追溯到70年前，源于电子计算机诞生时的一个想法：人的思维可以复制吗？

图灵测试：鉴别机器是否具有智能的方法，向被测试者提问，如果回答让提问者做出超30%的误判（无法分辨被测试者是人还是机器），便通过测试。

诞生与早期繁荣（1950–1960年代）

达特茅斯会议：人工智能概念诞生。如何通过人类的通用语言-数学，来让机器计算具备更高级的功能。

1954年：乔治·戴沃尔研制出世界第一台可编程机器人。

1959年：阿瑟·萨缪尔开发出具有学习能力的跳棋程序，并战胜州冠军，首次提出“机器学习”概念。

1966年：约瑟夫·维森鲍姆开发出首个聊天机器人ELIZA

低谷与反思（1970年代–1980年代初）

“AI寒冬”：由于计算机算力不足算法局限及研发目标过高，AI研究陷入低谷，各国大幅削减资助

莱特希尔报告1973：不实用,太慢,错误率高

技术突破与复苏（1980末–1990年代）

算法进步：反向传播算法等机器学习技术的突破，为神经网络的发展奠定基础。

“深蓝”战胜棋王（1997年）：IBM的“深蓝”计算机击败国际象棋世界冠军卡斯帕罗夫，彰显AI在复杂决策中的能力

深度学习与爆发期（2006年至今）

深度学习革命：随着大数据、算力提升和深度学习算法突破，AI进入高速发展期。

2011年：IBM的Watson在智力问答节目中战胜人类冠军。

2016年：谷歌AlphaGo击败围棋世界冠军李世石，引发全球对AI的关注。

2022年：ChatGPT不仅能回答问题，还能创作作品、编程甚至模仿人类角色。

2017年：我国发布《新一代人工智能发展规划》，推动AI与各产业深度融合，多国将AI上升为国家战略。

三大技术流派

连接主义：仿生物学，模拟大脑的神经元连接的网络结构

符号主义：用逻辑模拟人类求解数学题，通过设定规则符号进行推理

行为主义：用行为训练（环境反馈、奖励、惩罚）模拟形成适应性智能

思考：当下流行的大模型是基于哪个流派

目前机器学习中的大模型主要基于连接主义这一技术流派发展而来。尤其是大语言模型如GPT、BERT等是这一思想在当下的顶尖体现。虽然大模型根植于连接主义，但在实际应用中，符号主义和行为主义的思想也常被借鉴，形成互补：当前，常将大模型与知识图谱（符号主义的现代代表）结合，用符号知识来约束和增强大模型，减少其“幻觉”（即生成不实信息）。而在大模型的训练中，强化学习来自人类反馈（RLHF） 是行为主义的典型应用，通过人类对模型输出的反馈（奖励或惩罚）来微调模型，使其行为更符合人类期望。

二、人工智能，有哪些能力？

处理对象（领域）

图像（计算机视觉）：

通过图像分类、目标检测、语义分割，让机器对图片/视频 看懂“有什么”，理解“是什么”

典型场景：人脸识别、自动驾驶

文本（自然语言处理）

通过文本分类、机器问答、机器翻译，让机器理解人类语言，也就是让机器读懂、写作文字

典型场景：智能客服、舆情监控、情感分析、机器翻译

音频（语音识别）

通过自动语音识别、语音合成，让机器能听懂话、能说话

典型场景：语音转文字、语音输入、数字人、语音助手、声音克隆

怎么学习（机器学习）

训练→推理：

通过训练（相当于人类的看书阅读），学习抽象规律到模型参数（相当于人类的理解记忆），最后在推理（相当于人类的考试）时能展现出智能。

机器学习：

一类实现AI的方法，强调让机器从数据中学习规律，而不是通过手工规则编码。

深度学习

深度学习是机器学习的一种，强化学习是机器学习的一种决策方式，其他“学习”是为不同任务设计的具体策略。

深度学习是机器学习的一种强大方法，用“多层神经网络”学习抽象规律。目的是让这位助手用多层神经网络自己学出高质量“特征”

监督学习Supervised Learning

老师手把手教，给出明确答案，机器不断学习学会从问题找到答案的规律。

例：准备了一些样本，每个水果上面都有一个标签，比如苹果、香蕉、橙子等。新员工拿到这些水果和标签，通过不断观察水果的颜色、形状和大小等特征，逐渐学会了如何区分这些水果。

无监督学习

没有老师教，自己观察数据，通过相似性特征进行数据分组，找到规律。它与监督学习的主要区别在于数据没有标签。在无监督学习中，计算机需要自行从数据中发现规律和结构，而不是依赖于人类提供的标签。

强化学习

通过不断试错找到最优答案：每次做出一个动作决策，系统告知好还是不好，根据反馈调整行为

类比:打游戏

如果在游戏中采取某种策略可以取得较高的得分，那么就进一步「强化」这种策略，以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。

在 Flappy bird 这个游戏中，我们需要简单的点击操作来控制小鸟，躲过各种水管，飞的越远越好，因为飞的越远就能获得更高的积分奖励。

这就是一个典型的强化学习场景：

机器有一个明确的小鸟角色——代理

需要控制小鸟飞的更远——目标

整个游戏过程中需要躲避各种水管——环境

躲避水管的方法是让小鸟用力飞一下——行动

飞的越远，就会获得越多的积分——奖励

学习方式(深度学习)

分类、回归问题

线性回归：根据输入特征，预测连续数值的模型（如房价、气温）

逻辑回归：根据输入特征，预判某件事情发生的概率的模型（比如购买商品的可能性）

决策树

在众多特征中，通过一系列简单规则逐步缩小范围，最终得出最优结论

深度学习&神经网络（大模型）

深度学习是一种基于人工神经网络的机器学习方法，模仿人脑神经元结构，构建复杂网络的模型，能处理图像、语音、文本等复杂高维数据

深度学习听起来高深，但我们可以用一个 “教AI认猫” 的例子，配合一个做菜的比喻，来轻松理解它的核心思想、过程和人脑模仿方式。

核心原理：模仿大脑的“分层学习法”

深度学习的核心是模仿人脑的分层信息处理方式。就像我们辨认一只猫时，大脑并非一眼就得出“猫”的结论，而是分步骤、由浅入深地处理信息：

初级处理：先捕捉局部特征，如物体的边缘、角落、颜色块等。

中级整合：将这些边缘和色块组合成更复杂的图案，比如眼睛的轮廓、胡须的形状。

高级抽象：最后，将这些图案组合成完整的概念，判断出这是一个“猫脸”。

深度学习网络模仿的正是这个过程。它通过多层的“人工神经元”（计算单元）来模拟这种层次化的认知过程。输入数据（如图片）从第一层（输入层）进入，经过多个中间层（隐藏层）的逐步抽象和提炼，最终在输出层给出结果。网络的“深度”就体现在这些多层结构上，层数越多，能学习和识别的模式就越复杂

深度学习的技术基石与驱动力

这个过程的成功离不开三大支柱（三驾马车），这也是深度学习在21世纪兴起的原因：

算法：如反向传播、梯度下降等，提供了高效的学习方法论。

算力：强大的计算资源（如GPU），让处理海量数据和复杂计算成为可能。

数据：互联网时代产生的大规模数据，为学习提供了丰富的“经验素材”。

训练和学习是需要算力和数据的，这里不做介绍

三、人工智能的主要产品形态

大语言模型LLM

是深度学习（机器学习的子领域）的规模化产物，参数量达十亿级以上，基于Transformer架构，通过海量数据预训练实现多任务通用性。其本质是猜测下一个字出现概率的机器模型，学的越多，猜的越准

从属关系：大模型是AI的实现方式 人工智能是一个宏大的目标，而大模型是近年来被证明非常有效的一条技术路径。可以理解为，AI是目标（让机器变智能），大模型是当前实现这一目标最有力的工具之一。几乎所有的大模型都属于AI的范畴，但并非所有AI系统都是大模型。

能力演进：大模型推动AI能力升级 传统AI模型往往针对特定任务（如识别垃圾邮件、下围棋），属于“狭义AI”。而大模型因其庞大的参数和广泛的训练数据，展现出更强的通用性（或“泛化能力”）。例如，同一个大模型经过微调，可以同时胜任翻译、写代码、分析财报等不同任务，这是向更通用的“广义AI”迈进的重要一步。

应用模式：从“单点应用”到“基础平台” 大模型的出现改变了AI的应用范式。它本身成为一个强大的赋能平台（Platform），其他开发者可以基于这个大平台，去开发各式各样的AI原生应用，而无需从零开始训练模型。这极大地降低了AI技术的应用门槛和开发成本。

大模型赋能千行百业

大模型常作为基础平台，通过微调或API调用赋能千行百业的具体应用，由此衍生出众多AI产品和应用。目前智能体(agent)则是大模型最热门的应用形式。

数字人

人物建模进行演讲

具身智能**【*待专题学习】**

具身智能（Embodied AI）是人工智能的一个重要分支，是让人工智能拥有“身体”，并能通过这个身体与环境互动，从而完成“感知-决策-行动”闭环。它与传统人工智能（如ChatGPT）的关键区别在于：具身智能能“动手做事”，而传统AI通常只停留在“思考和分析”层面。这一技术被视为实现通用人工智能（AGI）的关键路径，目前已应用于智能制造、医疗康复、家庭服务等领域，正推动人工智能从虚拟推理迈向物理操作的新阶段。