导入模块:
import pandas as pd
import numpy as np #pandas依赖于numpy
from sklearn import preprocessing
import xgboost as xgb
常用功能简介:
#load train and test
train = pd.read_csv('train.csv', index_col=0)
#index_col=0,指明第1列是索引
test = pd.read_csv('test.csv', index_col=0)
#type(train)=pandas.core.frame.DataFrame(本质是hash)
#train.head(n),获取train前n行的数据
#train.head(0),若n=0,表示获取整个train数据
#train.tail(n),获取train后n行的数据
#train.describe(),获取train的统计信息,如下:
'''
Hazard T1_V1 T1_V2 T1_V3 T1_V10
count 50999.000000 50999.000000 50999.000000 50999.000000 50999.000000
mean 4.022785 9.722093 12.847585 3.186004 7.020451
std 4.021194 5.167943 6.255743 1.739369 3.595279
min 1.000000 1.000000 1.000000

本文主要介绍了在Python中进行机器学习时,pandas数据包中的DataFrame数据结构。通过导入pandas模块,我们能利用DataFrame进行数据处理和分析。此外,还提及了与xgboost_pred相关的代码分析,提供了进一步的学习资源。
最低0.47元/天 解锁文章
2048

被折叠的 条评论
为什么被折叠?



