数据集adult.data下载地址:http://archive.ics.uci.edu/ml/machine-learning-databases/adult/,下载后将其重命名为adult.csv,打开后可看到如下样子。
数据集描述如下:
属性如下:
#导入pandas库
import pandas as pd
#用pandas打开csv文件
data=pd.read_csv('C:/Users/Administrator/Desktop/adult.csv',header=None,index_col=False,names=['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭情况','种族','性别','资产所得','资产损失','周工作时长','职业','收入'])
#为了方便展示,选取其中一部分数据
data_lite = data[['年龄','单位性质','学历','性别','周工作时长','职业','收入']]
#下面看一下数据的前5行
print(data_lite.head())
#使用get_dummies将文本数据转化为数值
data_dummies = pd.get_dummies(data_lite)
print('样本原始