Day 22 复习日——泰坦尼克号人员生还预测-优快云博客

今日任务：

简单回顾

在day 16 到day 21的学习中，主要涉及了以下内容：

通过前15天的学习以及最近几天的学习后，可以基本上掌握机器学习基本流程 + 特征工程（筛选与降维）处理，也补全了无监督问题（聚类）的知识点。在这个过程中，也渐渐地体会到课堂上所说的半监督方法，具体是如何实现的，以及它的优势和应用。

kaggle平台提供了大量的数据集、免费的GPU计算资源以及各种比赛，并且可以学习别人的代码思路，去提升自己的能力。

首先注册完账号后，主要关注了以下四个区域：

进入比赛页面，发现页面有overview（概述）、data（数据下载）、code（代码，别人的方案）、discussion（讨论）以及leaderboard（排行榜）这几个部分。

泰坦尼克号数据集分析作为入门比赛，在overview中的介绍十分详细（包括平台的使用、数据集介绍、遇到问题等），按照它的说明，进行操作就好。

此外，还需要注意以下要点：

从入门赛开始，学会使用“Fork and Learn”。学习并理解别人操作的思路，比如数据清晰、构造特征、模型选择等
明确评估指标，每一个比赛可能不同
重视数据预处理步骤：数据清洗和特征工程往往比模型本身更重要
一个标准的机器学习项目流程通常是：数据加载 -> 探索性数据分析 -> 数据清洗与预处理 -> 特征工程 -> 模型选择与训练 -> 模型评估与调参 -> 生成预测结果并提交。
积极提问：遇到问题，先在Discussion里搜索，99%的问题都有人问过。如果没找到，大胆地用英文发帖提问，社区非常友好。