深度之眼Kaggle比赛实战项目记录—6—第二周第一节 构建baseline

本文详细介绍使用Python进行数据预处理、模型构建及预测流程,包括数据清洗、特征编码、模型训练等内容,旨在帮助读者快速掌握Kaggle竞赛入门技巧。

任务

学习时长:1/6——1/7

任务名称:构建baseline

任务简介:完成一个基本的baseline提交到kaggle上然后有成绩

详细说明:

本节将会向大家介绍利用python数据清洗和数据预处理以及模型的构建,拟合数据,进行对test数据集进行预测,提交到成绩有排名。会先从理论讲起,再到实际的的一个操作。

数据清洗和数据处理是比赛以及任何一种机器学习模型的必须要经过的过程,而且极为重要,这里只是给大家介绍一下数据清洗的几种常见的知识,包括可以利用pandas和sklearn库来进行,对数据的空值的填充,以及数据归一化,独热编码,标签编码等数据处理方面的问题,以及模型的构建问题,如何进行训练以及这个预测提交的问题。在这个过程中可能有很多同学对于很多知识不是很熟悉,那么就需要自己多多面向谷歌或者组队讨论,出现问题的时候多思考以及多查阅资料。

代码下载:

链接:https://pan.baidu.com/s/11hmFMnKqnA1j_5NnpoGzVQ

提取码:wxr6

插入构建baseline

作业名称(详解):针对于不同的数据运用pandas和sklearn处理的方式区别是什么?说明模型只能拟合什么样子的数据,为什么数据归一化和不归一化的结果会有差距?提交成绩的截图。

作业提交形式:截图,文字,打卡提交。

打卡内容:(可以只是文字提交,或图片提交,或组合都行)

文字要求最少200字

图片要求最少1张

打卡截止日期:1/7

点我打卡!快来提交你的作业吧~

打卡

  1. 针对于不同的数据运用pandas和sklearn处理的方式区别是什么?

Pandas 主要是对数据本身进行一些操作,多是单纯的”物理“操作,集中在数据预处理阶段,包括:数据数据导入和清洗等等;而 sklearn 多是利用其包含的丰富的机器学习模块和方法对数据进行”物理“和”化学“操作,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值