Day 22 复习日——泰坦尼克号人员生还预测

@浙大疏锦行

今日任务:

  1. 回顾前21天的内容
  2. 自行学习参考如何使用kaggle平台,写下使用注意点
  3. 对“泰坦尼克号人员生还预测”提交代码

简单回顾

在day 16 到day 21的学习中,主要涉及了以下内容:

  • numpy数组介绍:数据的维度,基本的操作(如创建)
  • 聚类算法:三种常见指标及意义,三种聚类算法的使用流程,寻找最佳K值的过程;对聚类后的标签赋予实际含义(明确过程以及AI辅助)
  • 特征筛选:特征筛选的含义;六种特征筛选方法的使用与优缺点
  • 特征降维:SVD奇异值分解、LDA、PCA及t-SNE降维方法的过程及适用场景

通过前15天的学习以及最近几天的学习后,可以基本上掌握机器学习基本流程 + 特征工程(筛选与降维)处理,也补全了无监督问题(聚类)的知识点。在这个过程中,也渐渐地体会到课堂上所说的半监督方法,具体是如何实现的,以及它的优势和应用。

Kaggle平台使用

kaggle平台提供了大量的数据集、免费的GPU计算资源以及各种比赛,并且可以学习别人的代码思路,去提升自己的能力。

首先注册完账号后,主要关注了以下四个区域:

  • Competitions:入门赛和奖金赛
  • Datasets:海量公开的数据集,可以下载数据集作为练习
  • Code:提供在线编程环境(Python和R),可fork代码进行学习、修改
  • Discussion:讨论区,学习思路、技巧等

进入比赛页面,发现页面有overview(概述)、data(数据下载)、code(代码,别人的方案)、discussion(讨论)以及leaderboard(排行榜)这几个部分。

泰坦尼克号数据集分析作为入门比赛,在overview中的介绍十分详细(包括平台的使用、数据集介绍、遇到问题等),按照它的说明,进行操作就好。

此外,还需要注意以下要点:

  • 从入门赛开始,学会使用“Fork and Learn”。学习并理解别人操作的思路,比如数据清晰、构造特征、模型选择等
  • 明确评估指标,每一个比赛可能不同
  • 重视数据预处理步骤:数据清洗和特征工程往往比模型本身更重要
  • 一个标准的机器学习项目流程通常是:数据加载 -> 探索性数据分析 -> 数据清洗与预处理 -> 特征工程 -> 模型选择与训练 -> 模型评估与调参 -> 生成预测结果并提交。
  • 积极提问:遇到问题,先在Discussion里搜索,99%的问题都有人问过。如果没找到,大胆地用英文发帖提问,社区非常友好。

泰坦尼克号人员生还预测

根据Titanic Tutorial完成代码编写、上传工作

代码链接:Get_started_titanic

简单地走了一个数据预处理的流程,发现准确率为0.7655,不如默认的随机森林0.7751,可能是选择删除某几列而不是选择去处理(’Name‘,'Cabin','Ticket'),后面还需优化

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值