人工智能-机器学习（一）-优快云博客

概念	英文缩写	核心定义	关键特点
人工智能	AI	研究如何用计算机模拟或替代人类智能行为的领域（如理解语言、识别图像、解决问题）	最广泛的概念，包含所有 “机器仿人智能” 的技术方向
机器学习	ML	实现 AI 的一种方法：通过算法让计算机从数据中 “学习规律”，无需明确编程即可改进任务	核心是 “数据驱动”，而非 “硬编码规则”，例如 KNN、线性回归、决策树等算法
深度学习	DL	ML 的一个分支：用 “深层神经网络”（多层神经元结构）学习，模拟大脑处理信息的方式	擅长处理高维度 / 大规模数据（如图像、语音、文本），例如 CNN、Transformer

1.2.2 三者的关系

包含关系：AI ⊃ ML ⊃ DL
- 机器学习是实现人工智能的 “核心途径”（不是唯一途径，但目前最有效）；
- 深度学习是机器学习的 “高级方法”（解决了传统 ML 处理复杂数据的瓶颈）。
通俗类比：
- AI = “要造一辆能自己开的车”（目标）；
- ML = “让车通过观察路况数据学开车，而不是死记交通规则”（实现思路）；
- DL = “给车装一套‘模拟大脑’的神经网络，能处理雨天、堵车等复杂场景”（具体技术）。

1.2.3 两种学习方式的对比

学习方式	核心逻辑	适用场景	局限性
基于规则的学习	程序员手工编写if-else逻辑（如 “如果温度> 30℃，启动风扇”）	简单、规则明确的场景（如计算器、简单考勤系统）	无法处理复杂 / 无明确规则的场景（如图像识别：无法用规则描述 “猫的样子”）
基于模型的学习	从数据中自动学习规律，生成 “预测模型”（如从房价数据中学习 “面积与价格的关系”）	复杂、无明确规则的场景（图像识别、语音转文字）	需要足够多的数据，且需选择合适的模型（如用线性模型拟合房价，用 CNN 识别图像）

案例：房价预测（基于模型的学习）
1. 数据：多组 “房屋面积 - 房价” 样本（如 “50㎡-100 万”“80㎡-160 万”）；
2. 模型：用线性方程y=ax+b（y = 房价，x = 面积，a/b 为模型参数）拟合数据；
3. 学习过程：计算机自动调整 a/b 的值，让方程尽可能贴近所有样本点；
4. 预测：输入新面积 “60㎡”，模型输出预测房价 “120 万”。

1.3 总结

AI 是 “目标”，ML 是 “实现思路”，DL 是 “高级技术”，三者是包含与递进关系；
机器学习的核心是 “数据驱动”，区别于传统 “规则驱动”；
深度学习擅长处理复杂数据，是当前 AI 领域（如 ChatGPT、自动驾驶）的核心技术。

2. 机器学习的应用领域与发展史

2.1 学习目标

了解机器学习的核心应用领域；
掌握 AI 发展史的关键时间节点；
明确 AI 发展的三要素（数据、算法、算力）。

2.2 核心内容

2.2.1 机器学习的三大应用领域

应用领域	英文缩写	具体场景	技术案例
计算机视觉	CV	图像识别（如人脸识别、车牌识别）、目标检测（如自动驾驶识别行人）、图像生成（如 AI 绘画）	CNN（卷积神经网络）、YOLO 算法、Stable Diffusion
自然语言处理	NLP	语音转文字、机器翻译（如中英互译）、聊天机器人（如 ChatGPT）、文本摘要	Transformer 框架（BERT、GPT 系列）、LSTM
数据挖掘与分析	-	用户行为分析（如电商推荐 “你可能喜欢的商品”）、风险预测（如信用卡欺诈检测）	聚类算法（K-Means）、决策树、集成学习（随机森林）

2.2.2 AI 发展史关键时间线

时间	关键事件	意义
1956 年	美国达特茅斯会议：首次提出 “人工智能” 术语，确立研究方向	AI 元年，标志着 AI 成为独立学科
1962 年	IBM Arthur Samuel 的跳棋程序战胜人类高手	首次证明机器可通过学习超越人类（AI 第一次浪潮）
1997 年	IBM “深蓝” 战胜国际象棋世界冠军卡斯帕罗夫	机器在复杂策略游戏中超越人类（AI 第二次浪潮）
2012 年	AlexNet（深度学习模型）在 ImageNet 图像识别比赛中夺冠（准确率远超传统方法）	深度学习崛起，开启 AI 第三次浪潮
2016 年	Google AlphaGo（基于 DL）战胜围棋世界冠军李世石	证明 DL 可处理 “需要直觉” 的复杂任务（围棋的可能性比宇宙原子还多）
2018 年	BERT（NLP 模型）、GPT-1 发布，Transformer 框架成为 NLP 领域标准	NLP 进入 “预训练模型” 时代，机器理解文本的能力大幅提升
2022 年	ChatGPT 发布，支持多轮对话、代码生成、创意写作	深度学习进入 “大模型” 时代，AI 向 “通用智能” 迈进
2024 年	AI 应用大规模落地（如 AI 办公、AI 医疗诊断），硬件与场景深度融合	AI 从 “技术研发” 转向 “产业实用”

2.2.3 AI 发展的三要素

数据：机器学习的 “燃料”—— 数据量越大、质量越高，模型效果越好（如 GPT-4 训练用了万亿级文本数据）；
算法：模型的 “发动机”—— 从传统 ML 的决策树，到 DL 的 Transformer，算法迭代直接推动 AI 能力提升；
算力：支撑大规模数据与复杂算法的 “硬件基础”，三种核心处理器的区别：

处理器	核心特点	适用场景
CPU	通用计算，擅长逻辑控制、I/O 密集型任务（如打开文件、网络通信）	日常办公、简单数据处理
GPU	并行计算，擅长重复计算密集型任务（如神经网络的矩阵运算）	模型训练、图像渲染
TPU	专用计算，为深度学习定制（如 Google TPU），效率比 GPU 更高	大规模大模型训练（如 GPT 系列）

2.3 总结

ML 核心应用：CV（视觉）、NLP（语言）、数据挖掘（分析）；
AI 发展史三波浪潮：1950s-60s（规则驱动）、1990s-2000s（传统 ML）、2010s 至今（深度学习 / 大模型）；
数据、算法、算力是 AI 发展的 “三驾马车”，缺一不可。

3. 机器学习常用基础术语

3.1 学习目标

明确 “样本、特征、标签” 的定义及对应关系；
理解 “训练集” 与 “测试集” 的划分逻辑及比例；
能结合实际案例（如就业薪资预测）识别术语。

3.2 核心内容

3.2.1 核心术语定义（以 “就业薪资预测” 为例）

假设我们有一份 “程序员就业数据”，用于预测 “就业薪资”：

同学编号	学科（特征 1）	作业考试分（特征 2）	学历（特征 3）	工作经验（特征 4）	工作地点（特征 5）	就业薪资（标签）
1	Java	90	本科	0 年	北京	12k
2	AI	92	研究生	1 年	上海	18k
3	测试	85	专科	0 年	武汉	8k

基于此表，术语定义如下：

样本（Sample）：一行数据 = 一个样本（如 “同学 1 的所有信息”），多个样本组成 “数据集（Dataset）”；

→ 通俗理解：“要分析的每个对象”。

特征（Feature）：一列数据 = 一个特征（如 “培训学科”“作业分数”），是 “对预测有用的属性”；

→ 通俗理解：“预测的依据”（要预测薪资，需要知道学科、分数等信息）。

标签（Label / 目标值）：模型要预测的列（如 “就业薪资”），是 “样本的结果”；

→ 注意：无监督学习中没有标签（如仅对 “用户购物行为” 聚类，不预测具体结果）。

3.2.2 数据集的划分

为了确保模型 “能泛化到新数据”（不是死记训练数据），需将数据集分为两部分：

数据集类型	核心作用	划分比例	符号表示（常用）
训练集	用于 “训练模型”（让模型学习特征与标签的关系，如从 100 个样本中学习 “学科 - 薪资” 规律）	7:3 ~ 8:2（占比更高）	特征：X_train；标签：y_train
测试集	用于 “评估模型”（用模型没见过的数据测试效果，判断是否真的学会了规律）	2:8 ~ 3:7（占比更低）	特征：X_test；标签：y_test

案例：若有 100 个就业样本，按 7:3 划分：
- 训练集：70 个样本（用这些数据训练模型）；
- 测试集：30 个样本（用这些数据测试模型预测薪资的准确率）。

3.3 总结

样本 = 一行数据，特征 = 预测依据（一列数据），标签 = 预测目标（要输出的结果）；
数据集必须划分训练集（学规律）和测试集（验效果），避免模型 “作弊”；
划分比例通常为 7:3 或 8:2，训练集需足够大以保证模型学习充分。

4. 机器学习算法分类

4.1 学习目标

区分有监督、无监督、半监督、强化学习四种类型；
明确有监督学习中 “分类” 与 “回归” 的区别；
了解每种算法类型的典型应用场景。

4.2 核心内容

4.2.1 按 “学习方式” 分类（四大类）

算法类型	核心特点（是否有标签）	细分方向 / 典型算法	应用场景案例
有监督学习	训练数据 “有标签”（已知输入→输出的对应关系）	分类（标签是离散值）：逻辑回归、决策树、随机森林；回归（标签是连续值）：线性回归、梯度提升树	分类：预测 “邮件是否为垃圾邮件”（标签：是 / 否）、“癌症诊断结果”（良性 / 恶性）；回归：预测 “房价”（标签：120 万 / 180 万）、“未来气温”（25℃/28℃）
无监督学习	训练数据 “无标签”（仅输入数据，无输出结果）	聚类（按相似性分组）：K-Means、DBSCAN；降维（减少特征维度）：PCA	聚类：电商 “用户分群”（如 “高消费用户”“低频用户”）；降维：将 “100 个特征的图像数据” 压缩为 “10 个特征”，方便处理
半监督学习	训练数据 “部分有标签，部分无标签”（结合两种学习的优点）	标签传播、半监督 SVM	数据标注成本高的场景（如医疗影像：只有 10% 的影像有医生标注，90% 无标注）
强化学习	无固定训练数据，通过 “智能体（Agent）与环境交互” 学习（目标是最大化 “奖励”）	Q-Learning、DQN、PPO	自动驾驶（Agent = 汽车，环境 = 路况，奖励 = 安全行驶距离）、游戏 AI（如 AlphaGo）

4.2.2 关键区分：分类问题 vs 回归问题（有监督学习的核心细分）

对比维度	分类问题	回归问题
标签类型	离散值（有限个类别，如 “红 / 蓝 / 绿”“是 / 否”）	连续值（无限个可能，如 “0.1~100 之间的任意数”）
核心目标	判断 “样本属于哪个类别”	预测 “样本的具体数值”
典型案例	预测 “用户是否会点击广告”（是 / 否）、“水果种类”（苹果 / 香蕉 / 橙子）	预测 “下个月的销售额”（50 万 / 62 万）、“婴儿的身高”（75cm/82cm）
常用算法	逻辑回归、决策树、随机森林、SVM	线性回归、多项式回归、梯度提升树（XGBoost）

4.3 总结

算法分类的核心依据是 “是否有标签” 和 “学习方式”；
有监督学习是最常用的类型，需重点区分 “分类（离散标签）” 和 “回归（连续标签）”；
无监督学习适合 “找数据规律”（如分群），强化学习适合 “动态交互场景”（如游戏、自动驾驶）。

5. 机器学习标准建模流程

5.1 学习目标

掌握机器学习建模的 “五步标准流程”；
理解每个步骤的核心任务与目的；
知道 “流程迭代” 的重要性（效果不好时需回溯调整）。

5.2 核心内容

5.2.1 五步标准流程（从数据到模型落地）

步骤 1：获取数据
- 核心任务：搜集与 “业务目标” 相关的原始数据；
- 数据类型：图像数据（如照片）、文本数据（如评论）、结构化数据（如 Excel 表格）；
- 注意事项：数据需 “真实、完整”（如预测房价，不能只收集 “面积” 数据，还需 “地段、楼层” 等）。

步骤 2：数据基本处理
- 核心任务：解决数据 “脏、乱、差” 的问题，为后续建模做准备；
- 常见操作：
  - 缺失值处理（如 “就业数据中某同学的学历为空”，用 “平均值 / 中位数” 或 “删除该样本” 填充）；
  - 异常值处理（如 “房价数据中出现‘1 元 /㎡’”，判断为错误数据，删除或修正）；
  - 数据格式统一（如 “日期格式有‘2023.10.1’和‘2023-10-01’，统一为一种格式”）。

步骤 3：特征工程
- 核心任务：“优化特征”，让模型更好地学习规律（决定模型上限的关键步骤）；
- 具体操作：特征提取、特征预处理、特征降维、特征选择（详见第 6 章）。

步骤 4：模型训练与预测
- 核心任务：选择合适的算法训练模型，并对新数据进行预测；
- 流程细分：
  - 划分训练集 / 测试集（按 7:3 或 8:2）；
  - 选择算法（如预测房价用 “线性回归”，预测垃圾邮件用 “逻辑回归”）；
  - 训练模型（用训练集让算法学习特征→标签的关系）；
  - 模型预测（用测试集输入模型，得到预测结果）。

步骤 5：模型评估与迭代
- 核心任务：判断模型效果，若不达标则回溯调整；
- 评估指标：
  - 回归问题：MAE（平均绝对误差）、RMSE（均方根误差，越小越好）；
  - 分类问题：准确率（正确预测的比例）、召回率（正样本被正确识别的比例）；
- 迭代逻辑：若准确率低→回溯步骤 3（优化特征）或步骤 4（换算法），重新训练评估。

5.2.2 流程迭代案例（以 “房价预测” 为例）

初始流程：获取 “面积 + 房价” 数据→无缺失值→直接用线性回归训练→评估 RMSE=50 万（误差太大）；
迭代调整：
- 回溯步骤 1：补充 “地段、楼层、房龄” 等特征数据；
- 回溯步骤 3：对 “地段” 进行编码（如 “北京朝阳 = 3，北京通州 = 2”）；
- 回溯步骤 4：换用 “梯度提升树” 算法；

最终效果：RMSE=10 万（误差大幅降低，符合要求）。

5.3 总结

建模流程：获取数据→数据处理→特征工程→模型训练→评估迭代（闭环流程，非一次性步骤）；
关键原则：“数据和特征决定模型上限，算法只是逼近上限”（特征工程比算法选择更重要）；
迭代是常态：首次建模效果通常不达标，需通过回溯调整优化。

6. 特征工程入门

6.1 学习目标

明确 “特征工程” 的定义与核心价值；
了解特征工程的五大子领域及各自作用；
理解 “特征工程决定模型上限” 的含义。

6.2 核心内容

6.2.1 特征工程的定义与价值

定义：利用业务知识和技术手段 “处理原始数据，提取有效特征”，让模型更好地学习规律的过程；
核心价值：引用业界名言 ——“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”；

→ 案例：同样的房价数据，若只给 “面积” 特征，模型 RMSE=50 万；若补充 “地段、楼层” 特征，RMSE=10 万（特征工程的作用）。

6.2.2 特征工程的五大子领域

子领域	核心任务	具体操作案例
特征提取	将 “非结构化数据” 转化为 “结构化特征”（模型能识别的数值格式）	文本数据：用 “词袋模型” 将 “我喜欢 AI” 转化为 [1,1,0,1]（1 表示包含该词，0 表示不包含）；图像数据：用 CNN 提取 “边缘、纹理” 等特征
特征预处理	让不同特征的 “量级一致”，避免模型偏向量级大的特征	归一化（将特征值缩放到 [0,1] 区间，如 “面积 100㎡→0.5，200㎡→1.0”）；标准化（将特征值转化为 “均值 = 0，标准差 = 1” 的分布）
特征降维	减少特征数量，消除冗余（如 “身高” 和 “体重” 高度相关，可合并为 “BMI 指数”）	PCA（主成分分析）：将 100 个特征压缩为 10 个，保留 90% 以上的原始信息；LDA（线性判别分析）：降维的同时保留类别区分能力
特征选择	从所有特征中筛选 “对预测最有用的特征”，删除无用特征（如 “用户 ID” 对预测购物行为无用）	方差选择（删除方差过小的特征，如 “所有样本的‘性别’都是男，方差为 0，删除”）；互信息选择（选择与标签关联性强的特征）
特征组合	将多个简单特征合并为 “更有意义的复合特征”	电商场景：“用户年龄”+“购买金额”→“年龄段 - 消费等级”（如 “20-30 岁高消费”）；房价场景：“面积”+“房间数”→“每房间平均面积”

6.3 总结

特征工程是 “从数据到模型的桥梁”，直接影响模型效果；
五大子领域：提取（非结构化转结构化）、预处理（量级统一）、降维（去冗余）、选择（留有用）、组合（造新特征）；
做特征工程需结合 “业务知识”（如电商需懂用户行为，医疗需懂病症关联）。

7. 模型拟合问题（欠拟合 / 过拟合）

7.1 学习目标

定义 “欠拟合”“过拟合” 的概念及表现；
分析两种拟合问题的产生原因；
理解 “泛化能力” 和 “奥卡姆剃刀原则” 的含义。

7.2 核心内容

7.2.1 三种拟合状态的对比

以 “房价预测（面积→房价）” 为例，模型拟合状态如下：

拟合状态	训练集表现	测试集表现	直观表现（拟合曲线与样本点的关系）	核心原因
欠拟合	差	差	曲线过于简单（如用直线拟合非线性数据），大部分样本点远离曲线	模型太简单（如用线性模型拟合 “面积 - 房价” 的非线性关系）；特征太少（只考虑面积，忽略地段）
过拟合	好	差	曲线过于复杂（如用高次多项式），完美贴合训练集点，但偏离测试集点	模型太复杂（如用 10 次多项式拟合简单线性数据）；训练数据少 / 不纯（如只有 10 个样本，且包含异常值）
理想拟合	好	好	曲线复杂度适中，既贴合训练集点，又能匹配测试集点	模型复杂度与数据复杂度匹配；训练数据充足且纯净

7.2.2 关键概念

泛化能力：模型在 “新数据（测试集 / 真实场景）” 上的表现能力 —— 泛化能力强 = 模型能应对未知数据（目标）；
- 欠拟合 / 过拟合的本质都是 “泛化能力差”。

奥卡姆剃刀原则：当两个模型的泛化误差（测试集误差）相同时，选择 “更简单的模型”；
- 理由：复杂模型更容易 “死记训练数据”（过拟合），而简单模型更稳定（如线性模型比 10 次多项式更易泛化）。

7.2.3 解决拟合问题的方法

拟合问题	解决方法
欠拟合	1. 增加模型复杂度（如用多项式回归替代线性回归）；2. 补充更多特征（如给房价预测加 “地段” 特征）；3. 增加训练数据量
过拟合	1. 降低模型复杂度（如用决策树剪枝，减少层数）；2. 增加训练数据（让模型学更通用的规律，而非死记）；3. 正则化（如 L1/L2 正则，限制模型参数过大）；4. 数据增强（如图像旋转、翻转，增加样本多样性）

7.3 总结

欠拟合 = 模型太简单（学不会），过拟合 = 模型太复杂（学太死）；
泛化能力是衡量模型好坏的核心标准（不是训练集表现）；
解决拟合问题的关键：匹配 “模型复杂度” 与 “数据复杂度”，并保证数据充足。

8. 机器学习开发环境

8.1 学习目标

了解主流的机器学习开发工具（以 Python 生态为主）；
掌握 scikit-learn 库的安装方法与核心特点；
知道 scikit-learn 的适用场景与学习资源。

8.2 核心内容

8.2.1 Python 生态的核心工具

机器学习开发以 Python 为主，核心工具链如下：

工具 / 库	核心作用	与 scikit-learn 的关系
NumPy	处理数值计算（如数组运算、矩阵操作）	scikit-learn 的基础依赖（所有数据处理都基于 NumPy 数组）
Pandas	处理结构化数据（如 Excel 表格、CSV 文件，支持缺失值处理、数据筛选）	数据预处理阶段的核心工具，处理后的数据需转为 NumPy 数组才能输入 scikit-learn
Matplotlib/Seaborn	数据可视化（如绘制折线图、散点图、直方图，用于分析数据分布）	辅助特征工程（如通过散点图看特征与标签的关系）
scikit-learn	机器学习算法库（包含所有基础 ML 算法，如线性回归、K-Means、随机森林）	核心建模工具，无需重复编写算法，直接调用 API

8.2.2 scikit-learn 库详解

核心特点：
- 简单易用：API 设计统一（如所有算法都有fit()训练、predict()预测方法）；
- 功能全面：覆盖有监督、无监督、半监督、模型评估等全流程；
- 文档完善：官网提供详细教程和案例，适合新手学习；
- 开源免费：基于 BSD 许可证，可商业使用（无版权问题）。

安装方法（Windows 系统为例）：
- 前提：已安装 Python（推荐 3.8 + 版本）；
- 打开 “命令提示符（CMD）”，输入命令：

pip install scikit-learn

- 验证安装：打开 Python 终端，输入import sklearn，无报错则安装成功。
官网与学习资源：
- 官网：https://scikit-learn.org/stable/（包含中文文档，可在右上角切换语言）；
- 入门案例：官网 “Tutorials” 板块提供 “房价预测”“鸢尾花分类” 等基础案例，直接复制代码即可运行。