针对实际数据集,使用集成学习stacking方法,进行分类问题的预测。主要是数据集在python种的导入方法。
数据集为泰坦尼克号数据集。
1、导入csv文件:
read_csv函数 、官方文档:https://pandas.pydata.org/pandas-docs/stable/reference/index.html
import pandas as pd #导入pandas包
data = pd.read_csv("train.csv",low_memory=False) #读取文件名字为“train.csv”的csv文件,
#low_memory 默认为True 在块内部处理文件,导致分析时内存使用量降低,但可能数据类型混乱。要确保没有混合类型设置为False,或者使用dtype参数指定类型。请注意,不管怎样,整个文件都读入单个DataFrame中,请使用chunksize或iterator参数以块形式返回数据。 (仅在C语法分析器中有效)
#print(data) #打印所有文件
2、特征值处理:字符串转换为数