机器学习分类模型:从葡萄酒质量预测看模型评估与优化
1. 非线性决策边界与高级分类方法
在处理数据时,若要得到如图 2.16 所示的决策边界,逻辑回归往往无能为力。这种决策边界的变量间呈非线性关系,因此需采用高级分类方法,如 K - 均值、决策树、随机森林以及更复杂的神经网络。
2. 分析更大的数据集
为理解其他分类方法,我们选用 UCI 的公开数据集——葡萄酒质量数据集进行更复杂的示例分析。该数据集有 11 个特征列,涵盖不同葡萄酒的化学属性,如灰分、酒精含量等;还有一个结果列,即葡萄酒的质量等级,这是由人类专家品尝葡萄酒后划分的。数据集共有 1599 条记录。
操作步骤如下:
1. 加载数据集:
# Pandas 是我用于数据加载和处理的首选工具
import pandas as pd
# 读取 csv 文件并显示记录
features = pd.read_csv('data/winequality-red.csv')
features.describe()
- 分离数据并构建训练和验证数据集:
# 分离 X 和 Y
X = features # 所有特征
X = X.drop(['quality'], axis=1) # 移除作为 Y 的质量列
Y = features[['quality']]
print("X 特征 (输入): ", X.columns)
print("Y 特征 (输出):
超级会员免费看
订阅专栏 解锁全文
7615

被折叠的 条评论
为什么被折叠?



