任务
学习时长:1/6——1/7
任务名称:构建baseline
任务简介:完成一个基本的baseline提交到kaggle上然后有成绩
详细说明:
本节将会向大家介绍利用python数据清洗和数据预处理以及模型的构建,拟合数据,进行对test数据集进行预测,提交到成绩有排名。会先从理论讲起,再到实际的的一个操作。
数据清洗和数据处理是比赛以及任何一种机器学习模型的必须要经过的过程,而且极为重要,这里只是给大家介绍一下数据清洗的几种常见的知识,包括可以利用pandas和sklearn库来进行,对数据的空值的填充,以及数据归一化,独热编码,标签编码等数据处理方面的问题,以及模型的构建问题,如何进行训练以及这个预测提交的问题。在这个过程中可能有很多同学对于很多知识不是很熟悉,那么就需要自己多多面向谷歌或者组队讨论,出现问题的时候多思考以及多查阅资料。
代码下载:
链接:https://pan.baidu.com/s/11hmFMnKqnA1j_5NnpoGzVQ
提取码:wxr6
插入构建baseline
作业名称(详解):针对于不同的数据运用pandas和sklearn处理的方式区别是什么?说明模型只能拟合什么样子的数据,为什么数据归一化和不归一化的结果会有差距?提交成绩的截图。
作业提交形式:截图,文字,打卡提交。
打卡内容:(可以只是文字提交,或图片提交,或组合都行)
文字要求最少200字
图片要求最少1张
打卡截止日期:1/7
点我打卡!快来提交你的作业吧~
打卡
- 针对于不同的数据运用pandas和sklearn处理的方式区别是什么?
Pandas 主要是对数据本身进行一些操作,多是单纯的”物理“操作,集中在数据预处理阶段,包括:数据数据导入和清洗等等;而 sklearn 多是利用其包含的丰富的机器学习模块和方法对数据进行”物理“和”化学“操作,

本文详细介绍使用Python进行数据预处理、模型构建及预测流程,包括数据清洗、特征编码、模型训练等内容,旨在帮助读者快速掌握Kaggle竞赛入门技巧。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



