利用随机森林算法对红酒数据集进行分类预测+对下载的人口数据集进行分类预测

本文通过实例演示了如何使用随机森林算法解决决策树的过拟合问题,并展示了随机森林在红酒品质预测中的应用。同时,对美国人口普查数据进行预处理后,用决策树和随机森林进行分析,预测人才类型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随机森林算法可以很好的解决决策树算法的过拟合问题

def j2():
    '''随机森林可以很好的解决决策树的过拟合问题'''
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.datasets import load_wine
    from sklearn.model_selection import train_test_split
    wine=load_wine()
    #选择数据集的前两个特征
    x=wine.data[:,:2]
    y=wine.target
    #
    x_train, x_test, y_train, y_test = train_test_split(x, y)
    #设定随机森林有10棵树
    forest=RandomForestClassifier(n_estimators=6,random_state=3)
    #n_estimators是控制决策树的数量, bootstrap=True放回抽样的意思,为了让每一个决策树都不一样。max_features越高,决策树越象。
    #拟合数据
    forest.fit(x_train,y_train)
    #我们用图像直观的发现随即森林的过程
    cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])
    cmap = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])
    # 分别用样本的两个特征值去创建图像的横轴和纵轴
    x_min, x_max = x_train[:, 0].min() - 1, x_train[:, 0].max() + 1
    y_min, y_max = x_train[:, 1].min() - 1, x_train[:, 1].max() + 1
    import numpy as np
    xx, yy = np.meshgrid(np.arange(x_min, x_max, .02), np.arange(y_min, y_max, .02))
    z = forest.predict(np.c_[xx.ravel(), yy.ravel()])
    # 给每个分类样本分配不一样的颜色
    import matplotlib.pyplot as plt
    z = z.reshape(xx.shape)
    plt.figure()
    plt.pcolormesh(xx, yy, z, cmap=cmap_light)
    # 用散点把样本表示出来
    plt.scatter(x[:, 0], x[:, 1], c=y, cmap=cmap, edgecolors='k', s=20)
    plt.xlim()
    plt.ylim()
    plt.title('Classifier:RandomForest')  # 深度为1
    plt.show()
    '''最关键的一点是,随机森林支持多进程并行处理,n_jobs=1,可以全开CPU '''
    '''针对超高维数据集和稀疏数据来说,线性模型要好很多'''
 #'''找一个红酒数据,我们进行预测'''
    wine_data=[[0,1]]#因为前面我们只选择数据集的两个特征值
    predict=forest.predict(wine_data)
    if predict==1:
        print('这是一款好的红酒')
    else:
        print('这不是我们想要的红酒')

 预测结果:这是一款好的红酒

下面对一个人口的数据集进行模拟预测:

def j3():#以1994年美国人口普查的数据集为例子,让决策树和随机森林模型对其进行分析
    '我们从外部下载数据集,然后导入进去'
    import pandas as pd
    data=pd.read_csv('adult.csv',header=None,index_col=False,names=['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭情况','种族','性别','资产所得','资产损失','周工作时长','原籍','收入'])
    data_list=data[['年龄','单位性质','学历','性别','周工作时长','职业','收入']]#只选取一部分数据
    print(data_list.head())
    '''我们会发现下载的数据都是字符串,不是我们要的整数型数值0和1,这就需要我们对数据进行处理'''
    data_change=pd.get_dummies(data_list)#使用get_dummies将文本数据变成数值,就是在原有的数据集上添加了虚拟变量
    #将对比原始特征和虚拟变量特征
    print('样本的原始特征:\n',list(data_list.columns),'\n')
    print('虚拟变量特征:\n',list(data_change.columns))
    '显示数据集的前5行'
    print(data_change.head())
    '''我们接下来将数据值分配给特征向量X和分类标签y'''
    #定义数据集的特征值
    features=data_change.loc[:,'年龄':'职业_ Transport-moving']
    #将特征数值赋予为x
    x=features.values
    #将收入大于50k作为预测目标
    y=data_change['收入_ >50K'].values
    print('特征形态:{} 标签形态;{}'.format(x.shape,y.shape))
    '''对数据进行处理完之后就可以进行数据集的划分和模型的训练'''
    from sklearn.model_selection import train_test_split
    x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=0)
    #用决策树拟合数据
    from sklearn.tree import DecisionTreeClassifier
    dt=DecisionTreeClassifier(max_depth=6)
    dt.fit(x_train,y_train)
    print('训练模型得分:', '%.2f' % dt.score(x_train, y_train))
    print('测试模型得分:','%.2f'%dt.score(x_test,y_test))
    '''然后我们可以通过这个模型来预测一个数据是不是我们需要的'''
    #将一个人的数据放入进去
    Mr_hua=[[24,40,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0]]
    datig=dt.predict(Mr_hua)#预测是标签值
    if datig==1:
        print('这是我们需要的精英顶端人才')
    else:
        print('这不是我们需要的人才')
    '''当然,我们也可以用随机森林来进行预测结果'''
    from sklearn.ensemble import RandomForestClassifier
    rf=RandomForestClassifier(n_estimators=10,random_state=0,n_jobs=1)
    rf.fit(x_train,y_train)
    print('训练模型得分:', '%.2f' % rf.score(x_train, y_train))
    print('测试模型得分:', '%.2f' % rf.score(x_test, y_test))
    Mr_hua = [
        [24, 40, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0,
         0, 0, 0, 0, 0, 0, 0, 0]]
    dating = rf.predict(Mr_hua)  # 预测是标签值
    if dating == 1:
        print('这是我们需要的精英顶端人才')
    else:
        print('这不是我们需要的人才')

以上代码,大家可以当作学习练习,来理解决策树和随机森林对于我们机器学习处理数据集的一些知识。

如有错误敬请指正

好的,我可以帮你实现这个任务。这里我会使用Python和PyTorch深度学习框架来完成。 首先,我们需要加载葡萄酒数据集并进行预处理。这个数据集包含了红酒和白酒的13个属性,我们需要将其划分成训练集和测试集,并将其转换为PyTorch张量。 ```python import pandas as pd import numpy as np import torch from torch.utils.data import Dataset, DataLoader from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler # 加载数据集 data = pd.read_csv('wine.csv') # 划分数据集 X_train, X_test, y_train, y_test = train_test_split(data.drop('class', axis=1).values, data['class'].values, test_size=0.2, random_state=42) # 标准化数据 sc = StandardScaler() X_train = sc.fit_transform(X_train) X_test = sc.transform(X_test) # 转换为PyTorch张量 X_train = torch.tensor(X_train, dtype=torch.float32) X_test = torch.tensor(X_test, dtype=torch.float32) y_train = torch.tensor(y_train, dtype=torch.long) y_test = torch.tensor(y_test, dtype=torch.long) ``` 接下来,我们需要定义一个神经网络模型。这里我们使用一个简单的多层感知器(MLP)模型,包含输入层、两个隐藏层和输出层。 ```python class MLP(torch.nn.Module): def __init__(self): super(MLP, self).__init__() self.fc1 = torch.nn.Linear(13, 64) self.fc2 = torch.nn.Linear(64, 32) self.fc3 = torch.nn.Linear(32, 3) self.relu = torch.nn.ReLU() def forward(self, x): x = self.relu(self.fc1(x)) x = self.relu(self.fc2(x)) x = self.fc3(x) return x ``` 然后,我们需要定义损失函数和优化器。这里我们使用交叉熵损失和随机梯度下降优化器。 ```python model = MLP() criterion = torch.nn.CrossEntropyLoss() optimizer = torch.optim.SGD(model.parameters(), lr=0.01) ``` 接下来,我们可以定义训练和测试函数。 ```python def train(model, optimizer, criterion, train_loader): model.train() train_loss = 0.0 train_acc = 0 for data, target in train_loader: optimizer.zero_grad() output = model(data) loss = criterion(output, target) loss.backward() optimizer.step() train_loss += loss.item() * data.size(0) _, preds = torch.max(output, 1) train_acc += torch.sum(preds == target.data) train_loss = train_loss / len(train_loader.dataset) train_acc = train_acc / len(train_loader.dataset) return train_loss, train_acc def test(model, criterion, test_loader): model.eval() test_loss = 0.0 test_acc = 0 with torch.no_grad(): for data, target in test_loader: output = model(data) loss = criterion(output, target) test_loss += loss.item() * data.size(0) _, preds = torch.max(output, 1) test_acc += torch.sum(preds == target.data) test_loss = test_loss / len(test_loader.dataset) test_acc = test_acc / len(test_loader.dataset) return test_loss, test_acc ``` 最后,我们可以开始训练模型,并输出预测结果。 ```python train_dataset = torch.utils.data.TensorDataset(X_train, y_train) test_dataset = torch.utils.data.TensorDataset(X_test, y_test) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=32, shuffle=False) num_epochs = 100 for epoch in range(num_epochs): train_loss, train_acc = train(model, optimizer, criterion, train_loader) test_loss, test_acc = test(model, criterion, test_loader) print('Epoch: [{}/{}], Train Loss: {:.4f}, Train Acc: {:.2f}%, Test Loss: {:.4f}, Test Acc: {:.2f}%'.format(epoch+1, num_epochs, train_loss, train_acc*100, test_loss, test_acc*100)) # 输出预测结果 model.eval() with torch.no_grad(): output = model(X_test) _, preds = torch.max(output, 1) preds = preds.numpy() y_test = y_test.numpy() from sklearn.metrics import confusion_matrix import matplotlib.pyplot as plt cm = confusion_matrix(y_test, preds) plt.imshow(cm, cmap=plt.cm.Blues) plt.title('Confusion matrix') plt.colorbar() plt.xticks(np.arange(3)) plt.yticks(np.arange(3)) plt.xlabel('True label') plt.ylabel('Predicted label') plt.show() ``` 通过运行上述代码,我们可以得到训练和测试的损失以及准确率,并输出预测结果图片。预测结果图片可以帮助我们更直观地了解模型的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值