机器学习分类方法与模型评估
1. 非线性决策边界与高级分类方法
当数据中的变量呈现非线性关系时,像逻辑回归这样的方法可能无法得到理想的决策边界。例如,若要得到如图 2.16 所示的决策边界,逻辑回归就无能为力了。此时,需要采用一些高级的分类方法,如 K - 均值、决策树、随机森林以及更复杂的神经网络。
2. 分析更大的数据集
为了更好地理解其他分类方法,我们使用一个更大、更复杂的数据集——UCI 的葡萄酒质量数据集。该数据集的特征列包含了不同葡萄酒的化学属性,如灰分、酒精含量等。结果或因变量是由人类专家通过品尝葡萄酒确定的葡萄酒类别,数据集共有 1599 条记录,包含 11 个特征列和 1 个表示葡萄酒质量的结果列。
以下是加载数据集的代码:
# Pandas 是我最喜欢的数据加载和处理工具
import pandas as pd
# 读取 csv 文件并显示记录
features = pd.read_csv('data/winequality-red.csv')
features.describe()
接下来,我们要将“特征”数据框分离为 X 和 Y 数据框,再进一步将它们划分为训练集和测试集。这次我们使用内置函数将数据按 80 - 20 的比例随机划分。
# 分离 X 和 Y
X = features # 所有特征
X = X.drop(['quality'], axis=1) # 移除作为 Y 的质量列
Y = features[['quality
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



