深度之眼Kaggle比赛实战项目记录—6—第二周第一节构建baseline

最新推荐文章于 2023-02-07 17:41:51 发布

原创

最新推荐文章于 2023-02-07 17:41:51 发布 · 401 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍使用Python进行数据预处理、模型构建及预测流程，包括数据清洗、特征编码、模型训练等内容，旨在帮助读者快速掌握Kaggle竞赛入门技巧。

任务

学习时长：1/6——1/7

任务名称：构建baseline

任务简介：完成一个基本的baseline提交到kaggle上然后有成绩

详细说明：

本节将会向大家介绍利用python数据清洗和数据预处理以及模型的构建，拟合数据，进行对test数据集进行预测，提交到成绩有排名。会先从理论讲起，再到实际的的一个操作。

数据清洗和数据处理是比赛以及任何一种机器学习模型的必须要经过的过程，而且极为重要，这里只是给大家介绍一下数据清洗的几种常见的知识，包括可以利用pandas和sklearn库来进行，对数据的空值的填充，以及数据归一化，独热编码，标签编码等数据处理方面的问题，以及模型的构建问题，如何进行训练以及这个预测提交的问题。在这个过程中可能有很多同学对于很多知识不是很熟悉，那么就需要自己多多面向谷歌或者组队讨论，出现问题的时候多思考以及多查阅资料。

代码下载：

链接：https://pan.baidu.com/s/11hmFMnKqnA1j_5NnpoGzVQ

提取码：wxr6

插入构建baseline

作业名称（详解）：针对于不同的数据运用pandas和sklearn处理的方式区别是什么？说明模型只能拟合什么样子的数据，为什么数据归一化和不归一化的结果会有差距？提交成绩的截图。

作业提交形式：截图，文字，打卡提交。

打卡内容：（可以只是文字提交，或图片提交，或组合都行）

文字要求最少200字

图片要求最少1张

打卡截止日期：1/7

点我打卡！快来提交你的作业吧~

打卡

针对于不同的数据运用pandas和sklearn处理的方式区别是什么？

Pandas 主要是对数据本身进行一些操作，多是单纯的”物理“操作，集中在数据预处理阶段，包括：数据数据导入和清洗等等；而 sklearn 多是利用其包含的丰富的机器学习模块和方法对数据进行”物理“和”化学“操作，

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。