模块6：机器学习的完整流程

杨德兴

于 2025-02-24 20:42:53 发布

阅读量463

点赞数 5

分类专栏： opencv新手入门文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/Leroi64/article/details/145837905

版权

opencv新手入门专栏收录该内容

3 篇文章

订阅专栏

🌍 全局认知：机器学习的完整流程

📌 五步流程图

1. 数据输入 → 2. 特征工程 → 3. 模型训练 → 4. 评估优化 → 5. 应用部署

您的课程模块6完全覆盖这一流程！

📚 学习地图与阶段目标

📌 新手四阶段学习法

阶段1：认知流程 → 阶段2：掌握特征 → 阶段3：训练模型 → 阶段4：实战优化

阶段	目标	对应课程内容	流程步骤
1	理解机器学习能做什么	主题89-92（概述、分类、评估）	数据输入、评估优化
2	学会将数据加工为模型可用的格式	主题104-107（特征工程）	特征工程
3	掌握一种算法解决实际问题	主题93-128（监督学习算法）	模型训练
4	用完整项目验证学习成果	主题131-132（实战项目）	应用部署

🚀 行动指南：从理论到实战

1. 阶段1-2：基础夯实

重点课程：主题89-92（流程认知）、主题104-107（特征工程）。
实践任务：用Pandas清洗一份公开数据集（如泰坦尼克号生存预测）。

2. 阶段3：算法突破

推荐起点：
- 分类任务：KNN（主题93-95）→ 逻辑回归（主题102-103）。
- 回归任务：线性回归（主题96-101）。
关键动作：对比不同算法在同一数据集上的效果（如用KNN和逻辑回归预测鸢尾花类别）。

3. 阶段4：实战升华

项目推荐：
- 分类：用决策树（主题108-112）预测客户是否购买产品。
- 回归：用线性回归（主题96-101）预测波士顿房价。
记录要点：

  - 数据来源：Kaggle或公开数据集  
  - 特征工程：处理缺失值、标准化数据  
  - 模型选择：尝试至少两种算法  
  - 评估指标：准确率（分类）/ RMSE（回归）

🔧 工具与资源推荐

数据集平台：Kaggle、UCI Machine Learning Repository。
代码库：GitHub搜索“机器学习入门项目”。
可视化工具：Jupyter Notebook（实时展示代码与结果）。

通过这张学习地图，您可以随时定位当前阶段，并明确下一步目标。如果需要更细分的计划或代码示例，欢迎继续交流！ 😊

我第一次学习遇到的问题点如下

1. 问题类型：分类 vs 回归

📌 为什么分为这两类？

监督学习需要“答案” （标签数据），而答案只能是两种形式：
- 分类（离散标签） ：如判断疾病（是/否）、图像识别（猫/狗）。
- 回归（连续数值） ：如预测房价、气温、销售额。

类比：

分类 ≈ 选择题（选项有限）
回归 ≈ 填空题（数值无限可能）

2. 算法选择逻辑：分类与回归的决策树

📌 分类任务算法选择

分类任务  
├── 数据量小、快速验证 → **KNN**（主题93-95，近邻投票）  
├── 需要概率输出 → **逻辑回归**（主题102-103，预测概率）  
└── 复杂数据、高精度需求 → **决策树/SVM**（主题108-128，处理非线性关系）

📌 回归任务算法选择

回归任务  
└── 数据有线性趋势 → **线性回归**（主题96-101，拟合直线）

关联说明：

算法与问题匹配：根据数据特征和需求选择工具，如：
- 预测房价（回归）→ 线性回归（若关系近似线性）。
- 判断肿瘤良性（分类）→ 逻辑回归（需概率）或SVM（高精度）。

3. 监督学习算法在流程中的位置

📌 流程与课程对应关系

1. 数据输入 → 主题91（数据处理概述）  
2. 特征工程 → 主题104-107（特征工程二、四）  
3. 模型训练 → 主题93-128（KNN、线性回归等监督算法）  
4. 评估优化 → 主题92（度量指标）、主题119-120（Stacking集成）  
5. 应用部署 → 主题131-132（项目实战）

您当前的学习阶段：