machine learning in coding（python）：pandas数据包DataFrame数据结构简介

最新推荐文章于 2025-07-11 17:53:11 发布

原创

最新推荐文章于 2025-07-11 17:53:11 发布 · 3.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#scikit-learn #机器学习 #pandas数据包 #DataFrame数据结构 #machine learning in

本文主要介绍了在Python中进行机器学习时，pandas数据包中的DataFrame数据结构。通过导入pandas模块，我们能利用DataFrame进行数据处理和分析。此外，还提及了与xgboost_pred相关的代码分析，提供了进一步的学习资源。

导入模块：

import pandas as pd
import numpy as np #pandas依赖于numpy
from sklearn import preprocessing
import xgboost as xgb

常用功能简介：

#load train and test 
train  = pd.read_csv('train.csv', index_col=0)
#index_col=0，指明第1列是索引
test  = pd.read_csv('test.csv', index_col=0)
#type(train)=pandas.core.frame.DataFrame（本质是hash）
#train.head(n)，获取train前n行的数据
#train.head(0)，若n=0，表示获取整个train数据
#train.tail(n)，获取train后n行的数据
#train.describe()，获取train的统计信息，如下：
'''
             Hazard         T1_V1         T1_V2         T1_V3        T1_V10  
count  50999.000000  50999.000000  50999.000000  50999.000000  50999.000000   
mean       4.022785      9.722093     12.847585      3.186004      7.020451   
std        4.021194      5.167943      6.255743      1.739369      3.595279   
min        1.000000      1.000000      1.000000