6、机器学习分类方法与模型评估

机器学习分类方法与模型评估

1. 非线性决策边界与高级分类方法

当数据中的变量呈现非线性关系时,像逻辑回归这样的方法可能无法得到理想的决策边界。例如,若要得到如图 2.16 所示的决策边界,逻辑回归就无能为力了。此时,需要采用一些高级的分类方法,如 K - 均值、决策树、随机森林以及更复杂的神经网络。

2. 分析更大的数据集

为了更好地理解其他分类方法,我们使用一个更大、更复杂的数据集——UCI 的葡萄酒质量数据集。该数据集的特征列包含了不同葡萄酒的化学属性,如灰分、酒精含量等。结果或因变量是由人类专家通过品尝葡萄酒确定的葡萄酒类别,数据集共有 1599 条记录,包含 11 个特征列和 1 个表示葡萄酒质量的结果列。

以下是加载数据集的代码:

# Pandas 是我最喜欢的数据加载和处理工具
import pandas as pd
# 读取 csv 文件并显示记录
features = pd.read_csv('data/winequality-red.csv')
features.describe()

接下来,我们要将“特征”数据框分离为 X 和 Y 数据框,再进一步将它们划分为训练集和测试集。这次我们使用内置函数将数据按 80 - 20 的比例随机划分。

# 分离 X 和 Y
X = features  # 所有特征
X = X.drop(['quality'], axis=1)  # 移除作为 Y 的质量列
Y = features[['quality
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值