🌍 全局认知:机器学习的完整流程
📌 五步流程图
1. 数据输入 → 2. 特征工程 → 3. 模型训练 → 4. 评估优化 → 5. 应用部署
您的课程模块6完全覆盖这一流程!
📚 学习地图与阶段目标
📌 新手四阶段学习法
阶段1:认知流程 → 阶段2:掌握特征 → 阶段3:训练模型 → 阶段4:实战优化
阶段 | 目标 | 对应课程内容 | 流程步骤 |
---|---|---|---|
1 | 理解机器学习能做什么 | 主题89-92(概述、分类、评估) | 数据输入、评估优化 |
2 | 学会将数据加工为模型可用的格式 | 主题104-107(特征工程) | 特征工程 |
3 | 掌握一种算法解决实际问题 | 主题93-128(监督学习算法) | 模型训练 |
4 | 用完整项目验证学习成果 | 主题131-132(实战项目) | 应用部署 |
🚀 行动指南:从理论到实战
1. 阶段1-2:基础夯实
- 重点课程:主题89-92(流程认知)、主题104-107(特征工程)。
- 实践任务:用Pandas清洗一份公开数据集(如泰坦尼克号生存预测)。
2. 阶段3:算法突破
- 推荐起点:
- 分类任务:KNN(主题93-95)→ 逻辑回归(主题102-103)。
- 回归任务:线性回归(主题96-101)。
- 关键动作:对比不同算法在同一数据集上的效果(如用KNN和逻辑回归预测鸢尾花类别)。
3. 阶段4:实战升华
- 项目推荐:
- 分类:用决策树(主题108-112)预测客户是否购买产品。
- 回归:用线性回归(主题96-101)预测波士顿房价。
- 记录要点:
- 数据来源:Kaggle或公开数据集
- 特征工程:处理缺失值、标准化数据
- 模型选择:尝试至少两种算法
- 评估指标:准确率(分类)/ RMSE(回归)
🔧 工具与资源推荐
- 数据集平台:Kaggle、UCI Machine Learning Repository。
- 代码库:GitHub搜索“机器学习入门项目”。
- 可视化工具:Jupyter Notebook(实时展示代码与结果)。
通过这张学习地图,您可以随时定位当前阶段,并明确下一步目标。如果需要更细分的计划或代码示例,欢迎继续交流! 😊
我第一次学习遇到的问题点如下
1. 问题类型:分类 vs 回归
📌 为什么分为这两类?
- 监督学习需要“答案” (标签数据),而答案只能是两种形式:
- 分类(离散标签) :如判断疾病(是/否)、图像识别(猫/狗)。
- 回归(连续数值) :如预测房价、气温、销售额。
类比:
- 分类 ≈ 选择题(选项有限)
- 回归 ≈ 填空题(数值无限可能)
2. 算法选择逻辑:分类与回归的决策树
📌 分类任务算法选择
分类任务
├── 数据量小、快速验证 → **KNN**(主题93-95,近邻投票)
├── 需要概率输出 → **逻辑回归**(主题102-103,预测概率)
└── 复杂数据、高精度需求 → **决策树/SVM**(主题108-128,处理非线性关系)
📌 回归任务算法选择
回归任务
└── 数据有线性趋势 → **线性回归**(主题96-101,拟合直线)
关联说明:
- 算法与问题匹配:根据数据特征和需求选择工具,如:
- 预测房价(回归)→ 线性回归(若关系近似线性)。
- 判断肿瘤良性(分类)→ 逻辑回归(需概率)或SVM(高精度)。
3. 监督学习算法在流程中的位置
📌 流程与课程对应关系
1. 数据输入 → 主题91(数据处理概述)
2. 特征工程 → 主题104-107(特征工程二、四)
3. 模型训练 → 主题93-128(KNN、线性回归等监督算法)
4. 评估优化 → 主题92(度量指标)、主题119-120(Stacking集成)
5. 应用部署 → 主题131-132(项目实战)
您当前的学习阶段:
- 若在学习 主题93-128(监督算法) ,正处于 第3步(模型训练)。
- 需结合前置步骤(特征工程)和后置步骤(评估优化)完成闭环。