Kaggle比赛 常用代码技巧记录
代码一般使用于jupyter notebook中,如有特殊会标明。
后续会封装这些函数来更方便的调用和维护。
1.%%time显示该段代码执行时间
%%time
train = pd.read_table("filename")
CPU times: user 7.78 s, sys: 606 ms, total: 8.39 s
Wall time: 8.43 s
2.显示target的分布(二分类),并画图
train['target'].value_counts()
train['target'].astype(int).plot.hist()
3.检验缺失值,函数参数为dataframe
返回值为降序排列的含有缺失值占比的dataframe
def missing_values_table(df):
# Total missing values
mis_val = df.isnull().sum()
# Percentage of missing values
mis_val_percent = 100 * df.isnull().sum() / len(df)
# Make a table with the results
mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
# Rename the columns
mis_val_table_ren_columns = mis_val_table.rename(
columns = {
0 : 'Missing Values', 1 : '% of Total Values'})