数据集adult.data下载地址:http://archive.ics.uci.edu/ml/machine-learning-databases/adult/,下载后将其重命名为adult.csv,打开后可看到如下样子。

数据集描述如下:

属性如下:

#导入pandas库
import pandas as pd
#用pandas打开csv文件
data=pd.read_csv('C:/Users/Administrator/Desktop/adult.csv',header=None,index_col=False,names=['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭情况','种族','性别','资产所得','资产损失','周工作时长','职业','收入'])
#为了方便展示,选取其中一部分数据
data_lite = data[['年龄','单位性质','学历','性别','周工作时长','职业','收入']]
#下面看一下数据的前5行
print(data_lite.head())
#使用get_dummies将文本数据转化为数值
data_dummies = pd.get_dummies(data_lite)
print('样本原始

这篇博客探讨了如何运用决策树算法对一个名为adult的数据集进行工资预测。数据集可在http://archive.ics.uci.edu/ml/machine-learning-databases/adult/找到,重命名为adult.csv。内容涉及数据集的属性描述和分析。
最低0.47元/天 解锁文章
5712

被折叠的 条评论
为什么被折叠?



