机器学习预测模型构建:平衡性能、复杂度与数据
1. 数据探索与问题理解
在处理玻璃数据的探索性研究中,发现了一个有趣的问题。箱线图和平行坐标图显示,如果有足够的数据,集成方法可能是一个不错的算法选择。不同类别对应的属性集之间似乎存在复杂的边界,哪种算法能实现最佳预测性能还有待观察。
在深入研究新数据集时,有一些工具能帮助我们理解如何构建预测模型:
- 数据基本信息 :了解数据集的大小、形状,确定属性和标签的类型,这有助于规划数据预处理和训练预测模型的方向。
- 统计研究 :
- 简单描述性统计 :如均值、方差和分位数。
- 二阶统计量 :属性之间的相关性,以及属性与标签之间的相关性。对于属性与二进制标签的相关性,需要采用与实数(回归标签)不同的技术。
- 可视化技术 :
- Q - Q图 :用于可视化数据中的异常值行为。
- 平行坐标图 :用于可视化属性与标签之间的关系。
2. 机器学习模型性能影响因素
不同类型的机器学习问题,对性能有不同的技术定义。例如,在电子商务应用中,良好的性能可能意味着返回正确的搜索结果或展示网站访问者频繁点击的广告;在基因问题中,可能意味着分离出导致遗传疾病的几个基因。
选择和拟合预测算法的目标是实现最佳性能,这涉及三个因素:
- 问题的复杂度
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



