任务
学习时长:12/31
任务名称:赛题的思路
任务简介:了解赛题要解决的问题,数据的说明以及介绍,要运用的算法
详细说明:进入比赛界面看到的第一眼的就是赛题的overview,要解决的问题,评估方式采用的是RMSE,接下来要看的就是Data,看数据Data里面的File Descriptions,看一下文件有哪些。再看的就是Data Fields里面的数据有哪些特征,然后就是数据的下载,点Download All 下载全部数据下来。
看到这个数据的第一眼就是SalePrice是房价也是标签,那肯定是用来做回归的了,这个时候就要想一下有哪些算法是可以用来做回归的了,还有看到数据的内容的时候,哪些是这个数值型,非数值的,大概就要想到有哪些的东西要做处理了以及有哪些方法来做处理了
代码下载
链接:https://pan.baidu.com/s/15CVlreLNaTdtJKZvryFH2Q
提取码:l3tv
作业名称(详解):掌握kaggle里每一个比赛里面数据的查看以及下载,并且对下载下来的数据进行发表自己的看法
作业提交形式:数据下载到本地的截图,针对这个赛题的数据发表自己的评论,
打卡内容:图片至少1张、评论至少100字
打卡截止日期:12/31
点我打卡!提交你的作业吧~
打卡
赛题思路
数据集的加载:
① 导入 NumPy 和 Pandas 库
② 通过 Pandas 库的 pd.read_csv(读取 csv 文件)
import numpy as np
import pandas as pd
train = pd.read_csv('train.csv')
test = pd.read_csv('train.csv')
数据集的查看:
- 显示前几行(默认为 5)
head() 可以显示前几行的数据信息(默认为显示前五行)
train.head()
Id MSSubClass MSZoning LotFrontage LotArea Street Alley LotShape LandContour Utilities ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold YrSold SaleType SaleCondition SalePrice
0 1 60 RL 65.0 8450 Pave NaN Reg Lvl AllPub ... 0 NaN NaN NaN 0 2 2008 WD Normal 208500
1 2 20 RL 80.0 9600 Pave NaN Reg Lvl AllPub ... 0 NaN NaN NaN 0 5 2007 WD Normal 181500
2 3 60 RL 68.0 11250 Pave NaN IR1 Lvl AllPub ... 0 NaN NaN NaN 0 9 2008 WD Normal 223500
3 4 70 RL 60.0 9550 Pave NaN IR1 Lvl AllPub ... 0 NaN NaN NaN 0 2 2006 WD Abnorml 140000
4 5 60 RL 84.0 14260 Pave NaN IR1 Lvl
- 查看数据整体情况
info() 显示行数、列数;以及每列数据的具体情况,比如数据个数、是否为空值、数据类型等
train.info