目录
- 人工智能三大核心概念(AI/ML/DL)
- 机器学习的应用领域与发展史
- 机器学习常用基础术语
- 机器学习算法分类
- 机器学习标准建模流程
- 特征工程入门
- 模型拟合问题(欠拟合 / 过拟合)
- 机器学习开发环境
1. 人工智能三大核心概念(AI/ML/DL)
1.1 学习目标
- 明确人工智能(AI)、机器学习(ML)、深度学习(DL)的定义
- 理解三者之间的包含与实现关系
- 区分 “基于规则的学习” 与 “基于模型的学习” 两种方式
1.2 核心内容
1.2.1 三大概念的定义
| 概念 | 英文缩写 | 核心定义 | 关键特点 |
| 人工智能 | AI | 研究如何用计算机模拟或替代人类智能行为的领域(如理解语言、识别图像、解决问题) | 最广泛的概念,包含所有 “机器仿人智能” 的技术方向 |
| 机器学习 | ML | 实现 AI 的一种方法:通过算法让计算机从数据中 “学习规律”,无需明确编程即可改进任务 | 核心是 “数据驱动”,而非 “硬编码规则”,例如 KNN、线性回归、决策树等算法 |
| 深度学习 | DL | ML 的一个分支:用 “深层神经网络”(多层神经元结构)学习,模拟大脑处理信息的方式 | 擅长处理高维度 / 大规模数据(如图像、语音、文本),例如 CNN、Transformer |
1.2.2 三者的关系
- 包含关系:AI ⊃ ML ⊃ DL
- 机器学习是实现人工智能的 “核心途径”(不是唯一途径,但目前最有效);
- 深度学习是机器学习的 “高级方法”(解决了传统 ML 处理复杂数据的瓶颈)。
- 通俗类比:
- AI = “要造一辆能自己开的车”(目标);
- ML = “让车通过观察路况数据学开车,而不是死记交通规则”(实现思路);
- DL = “给车装一套‘模拟大脑’的神经网络,能处理雨天、堵车等复杂场景”(具体技术)。
1.2.3 两种学习方式的对比
| 学习方式 | 核心逻辑 | 适用场景 | 局限性 |
| 基于规则的学习 | 程序员手工编写if-else逻辑(如 “如果温度> 30℃,启动风扇”) | 简单、规则明确的场景(如计算器、简单考勤系统) | 无法处理复杂 / 无明确规则的场景(如图像识别:无法用规则描述 “猫的样子”) |
| 基于模型的学习 | 从数据中自动学习规律,生成 “预测模型”(如从房价数据中学习 “面积与价格的关系”) | 复杂、无明确规则的场景(图像识别、语音转文字) | 需要足够多的数据,且需选择合适的模型(如用线性模型拟合房价,用 CNN 识别图像) |
- 案例:房价预测(基于模型的学习)
- 数据:多组 “房屋面积 - 房价” 样本(如 “50㎡-100 万”“80㎡-160 万”);
- 模型:用线性方程y=ax+b(y = 房价,x = 面积,a/b 为模型参数)拟合数据;
- 学习过程:计算机自动调整 a/b 的值,让方程尽可能贴近所有样本点;
- 预测:输入新面积 “60㎡”,模型输出预测房价 “120 万”。
1.3 总结
- AI 是 “目标”,ML 是 “实现思路”,DL 是 “高级技术”,三者是包含与递进关系;
- 机器学习的核心是 “数据驱动”,区别于传统 “规则驱动”;
- 深度学习擅长处理复杂数据,是当前 AI 领域(如 ChatGPT、自动驾驶)的核心技术。
2. 机器学习的应用领域与发展史
2.1 学习目标
- 了解机器学习的核心应用领域;
- 掌握 AI 发展史的关键时间节点;
- 明确 AI 发展的三要素(数据、算法、算力)。
2.2 核心内容
2.2.1 机器学习的三大应用领域
| 应用领域 | 英文缩写 | 具体场景 | 技术案例 |
| 计算机视觉 | CV | 图像识别(如人脸识别、车牌识别)、目标检测(如自动驾驶识别行人)、图像生成(如 AI 绘画) | CNN(卷积神经网络)、YOLO 算法、Stable Diffusion |
| 自然语言处理 | NLP | 语音转文字、机器翻译(如中英互译)、聊天机器人(如 ChatGPT)、文本摘要 | Transformer 框架(BERT、GPT 系列)、LSTM |
| 数据挖掘与分析 | - | 用户行为分析(如电商推荐 “你可能喜欢的商品”)、风险预测(如信用卡欺诈检测) | 聚类算法(K-Means)、决策树、集成学习(随机森林) |
2.2.2 AI 发展史关键时间线
| 时间 | 关键事件 | 意义 |
| 1956 年 | 美国达特茅斯会议:首次提出 “人工智能” 术语,确立研究方向 | AI 元年,标志着 AI 成为独立学科 |
| 1962 年 | IBM Arthur Samuel 的跳棋程序战胜人类高手 | 首次证明机器可通过学习超越人类(AI 第一次浪潮) |
| 1997 年 | IBM “深蓝” 战胜国际象棋世界冠军卡斯帕罗夫 | 机器在复杂策略游戏中超越人类(AI 第二次浪潮) |
| 2012 年 | AlexNet(深度学习模型)在 ImageNet 图像识别比赛中夺冠(准确率远超传统方法) | 深度学习崛起,开启 AI 第三次浪潮 |
| 2016 年 | Google AlphaGo(基于 DL)战胜围棋世界冠军李世石 | 证明 DL 可处理 “需要直觉” 的复杂任务(围棋的可能性比宇宙原子还多) |
| 2018 年 | BERT(NLP 模型)、GPT-1 发布,Transformer 框架成为 NLP 领域标准 | NLP 进入 “预训练模型” 时代,机器理解文本的能力大幅提升 |
| 2022 年 | ChatGPT 发布,支持多轮对话、代码生成、创意写作 | 深度学习进入 “大模型” 时代,AI 向 “通用智能” 迈进 |
| 2024 年 | AI 应用大规模落地(如 AI 办公、AI 医疗诊断),硬件与场景深度融合 | AI 从 “技术研发” 转向 “产业实用” |
2.2.3 AI 发展的三要素
- 数据:机器学习的 “燃料”—— 数据量越大、质量越高,模型效果越好(如 GPT-4 训练用了万亿级文本数据);
- 算法:模型的 “发动机”—— 从传统 ML 的决策树,到 DL 的 Transformer,算法迭代直接推动 AI 能力提升;
- 算力:支撑大规模数据与复杂算法的 “硬件基础”,三种核心处理器的区别:
| 处理器 | 核心特点 | 适用场景 |
| CPU | 通用计算,擅长逻辑控制、I/O 密集型任务(如打开文件、网络通信) | 日常办公、简单数据处理 |
| GPU | 并行计算,擅长重复计算密集型任务(如神经网络的矩阵运算) | 模型训练、图像渲染 |
| TPU | 专用计算,为深度学习定制(如 Google TPU),效率比 GPU 更高 | 大规模大模型训练(如 GPT 系列) |
2.3 总结
- ML 核心应用:CV(视觉)、NLP(语言)、数据挖掘(分析);
- AI 发展史三波浪潮:1950s-60s(规则驱动)、1990s-2000s(传统 ML)、2010s 至今(深度学习 / 大模型);
- 数据、算法、算力是 AI 发展的 “三驾马车”,缺一不可。
3. 机器学习常用基础术语
3.1 学习目标
- 明确 “样本、特征、标签” 的定义及对应关系;
- 理解 “训练集” 与 “测试集” 的划分逻辑及比例;
- 能结合实际案例(如就业薪资预测)识别术语。
3.2 核心内容
3.2.1 核心术语定义(以 “就业薪资预测” 为例)
假设我们有一份 “程序员就业数据”,用于预测 “就业薪资”:
| 同学编号 | 学科(特征 1) | 作业考试分(特征 2) | 学历(特征 3) | 工作经验(特征 4) | 工作地点(特征 5) | 就业薪资(标签) |
| 1 | Java | 90 | 本科 | 0 年 | 北京 | 12k |
| 2 | AI | 92 | 研究生 | 1 年 | 上海 | 18k |
| 3 | 测试 | 85 | 专科 | 0 年 | 武汉 | 8k |
基于此表,术语定义如下:
- 样本(Sample):一行数据 = 一个样本(如 “同学 1 的所有信息”),多个样本组成 “数据集(Dataset)”;
→ 通俗理解:“要分析的每个对象”。
- 特征(Feature):一列数据 = 一个特征(如 “培训学科”“作业分数”),是 “对预测有用的属性”;
→ 通俗理解:“预测的依据”(要预测薪资,需要知道学科、分数等信息)。
- 标签(Label / 目标值):模型要预测的列(如 “就业薪资”),是 “样本的结果”;
→ 注意:无监督学习中没有标签(如仅对 “用户购物行为” 聚类,不预测具体结果)。
3.2.2 数据集的划分
为了确保模型 “能泛化到新数据”(不是死记训练数据),需将数据集分为两部分:
| 数据集类型 | 核心作用 | 划分比例 | 符号表示(常用) |
| 训练集 | 用于 “训练模型”(让模型学习特征与标签的关系,如从 100 个样本中学习 “学科 - 薪资” 规律) | 7:3 ~ 8:2(占比更高) | 特征:X_train;标签:y_train |
| 测试集 | 用于 “评估模型”(用模型没见过的数据测试效果,判断是否真的学会了规律) | 2:8 ~ 3:7(占比更低) | 特征:X_test;标签:y_test |
- 案例:若有 100 个就业样本,按 7:3 划分:
- 训练集:70 个样本(用这些数据训练模型);
- 测试集:30 个样本(用这些数据测试模型预测薪资的准确率)。
3.3 总结
- 样本 = 一行数据,特征 = 预测依据(一列数据),标签 = 预测目标(要输出的结果);
- 数据集必须划分训练集(学规律)和测试集(验效果),避免模型 “作弊”;
- 划分比例通常为 7:3 或 8:2,训练集需足够大以保证模型学习充分。
4. 机器学习算法分类
4.1 学习目标
- 区分有监督、无监督、半监督、强化学习四种类型;
- 明确有监督学习中 “分类” 与 “回归” 的区别;
- 了解每种算法类型的典型应用场景。
4.2 核心内容
4.2.1 按 “学习方式” 分类(四大类)
| 算法类型 | 核心特点(是否有标签) | 细分方向 / 典型算法 | 应用场景案例 |
| 有监督学习 | 训练数据 “有标签”(已知输入→输出的对应关系) | 分类(标签是离散值):逻辑回归、决策树、随机森林;回归(标签是连续值):线性回归、梯度提升树 | 分类:预测 “邮件是否为垃圾邮件”(标签:是 / 否)、“癌症诊断结果”(良性 / 恶性);回归:预测 “房价”(标签:120 万 / 180 万)、“未来气温”(25℃/28℃) |
| 无监督学习 | 训练数据 “无标签”(仅输入数据,无输出结果) | 聚类(按相似性分组):K-Means、DBSCAN;降维(减少特征维度):PCA | 聚类:电商 “用户分群”(如 “高消费用户”“低频用户”);降维:将 “100 个特征的图像数据” 压缩为 “10 个特征”,方便处理 |
| 半监督学习 | 训练数据 “部分有标签,部分无标签”(结合两种学习的优点) | 标签传播、半监督 SVM | 数据标注成本高的场景(如医疗影像:只有 10% 的影像有医生标注,90% 无标注) |
| 强化学习 | 无固定训练数据,通过 “智能体(Agent)与环境交互” 学习(目标是最大化 “奖励”) | Q-Learning、DQN、PPO | 自动驾驶(Agent = 汽车,环境 = 路况,奖励 = 安全行驶距离)、游戏 AI(如 AlphaGo) |
4.2.2 关键区分:分类问题 vs 回归问题(有监督学习的核心细分)
| 对比维度 | 分类问题 | 回归问题 |
| 标签类型 | 离散值(有限个类别,如 “红 / 蓝 / 绿”“是 / 否”) | 连续值(无限个可能,如 “0.1~100 之间的任意数”) |
| 核心目标 | 判断 “样本属于哪个类别” | 预测 “样本的具体数值” |
| 典型案例 | 预测 “用户是否会点击广告”(是 / 否)、“水果种类”(苹果 / 香蕉 / 橙子) | 预测 “下个月的销售额”(50 万 / 62 万)、“婴儿的身高”(75cm/82cm) |
| 常用算法 | 逻辑回归、决策树、随机森林、SVM | 线性回归、多项式回归、梯度提升树(XGBoost) |
4.3 总结
- 算法分类的核心依据是 “是否有标签” 和 “学习方式”;
- 有监督学习是最常用的类型,需重点区分 “分类(离散标签)” 和 “回归(连续标签)”;
- 无监督学习适合 “找数据规律”(如分群),强化学习适合 “动态交互场景”(如游戏、自动驾驶)。
5. 机器学习标准建模流程
5.1 学习目标
- 掌握机器学习建模的 “五步标准流程”;
- 理解每个步骤的核心任务与目的;
- 知道 “流程迭代” 的重要性(效果不好时需回溯调整)。
5.2 核心内容
5.2.1 五步标准流程(从数据到模型落地)
- 步骤 1:获取数据
- 核心任务:搜集与 “业务目标” 相关的原始数据;
- 数据类型:图像数据(如照片)、文本数据(如评论)、结构化数据(如 Excel 表格);
- 注意事项:数据需 “真实、完整”(如预测房价,不能只收集 “面积” 数据,还需 “地段、楼层” 等)。
- 步骤 2:数据基本处理
- 核心任务:解决数据 “脏、乱、差” 的问题,为后续建模做准备;
- 常见操作:
- 缺失值处理(如 “就业数据中某同学的学历为空”,用 “平均值 / 中位数” 或 “删除该样本” 填充);
- 异常值处理(如 “房价数据中出现‘1 元 /㎡’”,判断为错误数据,删除或修正);
- 数据格式统一(如 “日期格式有‘2023.10.1’和‘2023-10-01’,统一为一种格式”)。
- 步骤 3:特征工程
- 核心任务:“优化特征”,让模型更好地学习规律(决定模型上限的关键步骤);
- 具体操作:特征提取、特征预处理、特征降维、特征选择(详见第 6 章)。
- 步骤 4:模型训练与预测
- 核心任务:选择合适的算法训练模型,并对新数据进行预测;
- 流程细分:
- 划分训练集 / 测试集(按 7:3 或 8:2);
- 选择算法(如预测房价用 “线性回归”,预测垃圾邮件用 “逻辑回归”);
- 训练模型(用训练集让算法学习特征→标签的关系);
- 模型预测(用测试集输入模型,得到预测结果)。
- 步骤 5:模型评估与迭代
- 核心任务:判断模型效果,若不达标则回溯调整;
- 评估指标:
- 回归问题:MAE(平均绝对误差)、RMSE(均方根误差,越小越好);
- 分类问题:准确率(正确预测的比例)、召回率(正样本被正确识别的比例);
- 迭代逻辑:若准确率低→回溯步骤 3(优化特征)或步骤 4(换算法),重新训练评估。
5.2.2 流程迭代案例(以 “房价预测” 为例)
- 初始流程:获取 “面积 + 房价” 数据→无缺失值→直接用线性回归训练→评估 RMSE=50 万(误差太大);
- 迭代调整:
- 回溯步骤 1:补充 “地段、楼层、房龄” 等特征数据;
- 回溯步骤 3:对 “地段” 进行编码(如 “北京朝阳 = 3,北京通州 = 2”);
- 回溯步骤 4:换用 “梯度提升树” 算法;
- 最终效果:RMSE=10 万(误差大幅降低,符合要求)。
5.3 总结
- 建模流程:获取数据→数据处理→特征工程→模型训练→评估迭代(闭环流程,非一次性步骤);
- 关键原则:“数据和特征决定模型上限,算法只是逼近上限”(特征工程比算法选择更重要);
- 迭代是常态:首次建模效果通常不达标,需通过回溯调整优化。
6. 特征工程入门
6.1 学习目标
- 明确 “特征工程” 的定义与核心价值;
- 了解特征工程的五大子领域及各自作用;
- 理解 “特征工程决定模型上限” 的含义。
6.2 核心内容
6.2.1 特征工程的定义与价值
- 定义:利用业务知识和技术手段 “处理原始数据,提取有效特征”,让模型更好地学习规律的过程;
- 核心价值:引用业界名言 ——“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”;
→ 案例:同样的房价数据,若只给 “面积” 特征,模型 RMSE=50 万;若补充 “地段、楼层” 特征,RMSE=10 万(特征工程的作用)。
6.2.2 特征工程的五大子领域
| 子领域 | 核心任务 | 具体操作案例 |
| 特征提取 | 将 “非结构化数据” 转化为 “结构化特征”(模型能识别的数值格式) | 文本数据:用 “词袋模型” 将 “我喜欢 AI” 转化为 [1,1,0,1](1 表示包含该词,0 表示不包含);图像数据:用 CNN 提取 “边缘、纹理” 等特征 |
| 特征预处理 | 让不同特征的 “量级一致”,避免模型偏向量级大的特征 | 归一化(将特征值缩放到 [0,1] 区间,如 “面积 100㎡→0.5,200㎡→1.0”);标准化(将特征值转化为 “均值 = 0,标准差 = 1” 的分布) |
| 特征降维 | 减少特征数量,消除冗余(如 “身高” 和 “体重” 高度相关,可合并为 “BMI 指数”) | PCA(主成分分析):将 100 个特征压缩为 10 个,保留 90% 以上的原始信息;LDA(线性判别分析):降维的同时保留类别区分能力 |
| 特征选择 | 从所有特征中筛选 “对预测最有用的特征”,删除无用特征(如 “用户 ID” 对预测购物行为无用) | 方差选择(删除方差过小的特征,如 “所有样本的‘性别’都是男,方差为 0,删除”);互信息选择(选择与标签关联性强的特征) |
| 特征组合 | 将多个简单特征合并为 “更有意义的复合特征” | 电商场景:“用户年龄”+“购买金额”→“年龄段 - 消费等级”(如 “20-30 岁高消费”);房价场景:“面积”+“房间数”→“每房间平均面积” |
6.3 总结
- 特征工程是 “从数据到模型的桥梁”,直接影响模型效果;
- 五大子领域:提取(非结构化转结构化)、预处理(量级统一)、降维(去冗余)、选择(留有用)、组合(造新特征);
- 做特征工程需结合 “业务知识”(如电商需懂用户行为,医疗需懂病症关联)。
7. 模型拟合问题(欠拟合 / 过拟合)
7.1 学习目标
- 定义 “欠拟合”“过拟合” 的概念及表现;
- 分析两种拟合问题的产生原因;
- 理解 “泛化能力” 和 “奥卡姆剃刀原则” 的含义。
7.2 核心内容
7.2.1 三种拟合状态的对比
以 “房价预测(面积→房价)” 为例,模型拟合状态如下:
| 拟合状态 | 训练集表现 | 测试集表现 | 直观表现(拟合曲线与样本点的关系) | 核心原因 |
| 欠拟合 | 差 | 差 | 曲线过于简单(如用直线拟合非线性数据),大部分样本点远离曲线 | 模型太简单(如用线性模型拟合 “面积 - 房价” 的非线性关系);特征太少(只考虑面积,忽略地段) |
| 过拟合 | 好 | 差 | 曲线过于复杂(如用高次多项式),完美贴合训练集点,但偏离测试集点 | 模型太复杂(如用 10 次多项式拟合简单线性数据);训练数据少 / 不纯(如只有 10 个样本,且包含异常值) |
| 理想拟合 | 好 | 好 | 曲线复杂度适中,既贴合训练集点,又能匹配测试集点 | 模型复杂度与数据复杂度匹配;训练数据充足且纯净 |
7.2.2 关键概念
- 泛化能力:模型在 “新数据(测试集 / 真实场景)” 上的表现能力 —— 泛化能力强 = 模型能应对未知数据(目标);
- 欠拟合 / 过拟合的本质都是 “泛化能力差”。
- 奥卡姆剃刀原则:当两个模型的泛化误差(测试集误差)相同时,选择 “更简单的模型”;
- 理由:复杂模型更容易 “死记训练数据”(过拟合),而简单模型更稳定(如线性模型比 10 次多项式更易泛化)。
7.2.3 解决拟合问题的方法
| 拟合问题 | 解决方法 |
| 欠拟合 | 1. 增加模型复杂度(如用多项式回归替代线性回归);2. 补充更多特征(如给房价预测加 “地段” 特征);3. 增加训练数据量 |
| 过拟合 | 1. 降低模型复杂度(如用决策树剪枝,减少层数);2. 增加训练数据(让模型学更通用的规律,而非死记);3. 正则化(如 L1/L2 正则,限制模型参数过大);4. 数据增强(如图像旋转、翻转,增加样本多样性) |
7.3 总结
- 欠拟合 = 模型太简单(学不会),过拟合 = 模型太复杂(学太死);
- 泛化能力是衡量模型好坏的核心标准(不是训练集表现);
- 解决拟合问题的关键:匹配 “模型复杂度” 与 “数据复杂度”,并保证数据充足。
8. 机器学习开发环境
8.1 学习目标
- 了解主流的机器学习开发工具(以 Python 生态为主);
- 掌握 scikit-learn 库的安装方法与核心特点;
- 知道 scikit-learn 的适用场景与学习资源。
8.2 核心内容
8.2.1 Python 生态的核心工具
机器学习开发以 Python 为主,核心工具链如下:
| 工具 / 库 | 核心作用 | 与 scikit-learn 的关系 |
| NumPy | 处理数值计算(如数组运算、矩阵操作) | scikit-learn 的基础依赖(所有数据处理都基于 NumPy 数组) |
| Pandas | 处理结构化数据(如 Excel 表格、CSV 文件,支持缺失值处理、数据筛选) | 数据预处理阶段的核心工具,处理后的数据需转为 NumPy 数组才能输入 scikit-learn |
| Matplotlib/Seaborn | 数据可视化(如绘制折线图、散点图、直方图,用于分析数据分布) | 辅助特征工程(如通过散点图看特征与标签的关系) |
| scikit-learn | 机器学习算法库(包含所有基础 ML 算法,如线性回归、K-Means、随机森林) | 核心建模工具,无需重复编写算法,直接调用 API |
8.2.2 scikit-learn 库详解
- 核心特点:
- 简单易用:API 设计统一(如所有算法都有fit()训练、predict()预测方法);
- 功能全面:覆盖有监督、无监督、半监督、模型评估等全流程;
- 文档完善:官网提供详细教程和案例,适合新手学习;
- 开源免费:基于 BSD 许可证,可商业使用(无版权问题)。
- 安装方法(Windows 系统为例):
- 前提:已安装 Python(推荐 3.8 + 版本);
- 打开 “命令提示符(CMD)”,输入命令:
| pip install scikit-learn |
-
- 验证安装:打开 Python 终端,输入import sklearn,无报错则安装成功。
- 官网与学习资源:
- 官网:https://scikit-learn.org/stable/(包含中文文档,可在右上角切换语言);
- 入门案例:官网 “Tutorials” 板块提供 “房价预测”“鸢尾花分类” 等基础案例,直接复制代码即可运行。
8.2.3 简单使用案例(用 scikit-learn 做线性回归)
| # 1. 导入库 import numpy as np from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error # 2. 准备数据(面积→房价) X_train = np.array([[50], [80], [100]]) # 训练集特征(面积,单位:㎡) y_train = np.array([100, 160, 200]) # 训练集标签(房价,单位:万) X_test = np.array([[60], [90]]) # 测试集特征 y_test = np.array([120, 180]) # 测试集标签(真实值) # 3. 训练模型 model = LinearRegression() # 初始化线性回归模型 model.fit(X_train, y_train) # 用训练集训练模型 # 4. 预测与评估 y_pred = model.predict(X_test) # 用测试集预测 rmse = np.sqrt(mean_squared_error(y_test, y_pred)) # 计算RMSE # 5. 输出结果 print("预测房价:", y_pred) # 输出:[120. 180.](与真实值完全一致) print("RMSE:", rmse) # 输出:0.0(理想拟合) |
8.3 总结
- Python 生态是机器学习开发的主流:NumPy(计算)+ Pandas(数据处理)+ scikit-learn(建模);
- scikit-learn 适合入门和中小型项目,API 简单,文档丰富;
- 安装只需一条pip命令,入门可从官网案例开始(如鸢尾花分类、房价预测)。


被折叠的 条评论
为什么被折叠?



