8、机器学习预测模型构建:平衡性能、复杂度与数据

机器学习预测模型构建:平衡性能、复杂度与数据

1. 数据探索与问题理解

在处理玻璃数据的探索性研究中,发现了一个有趣的问题。箱线图和平行坐标图显示,如果有足够的数据,集成方法可能是一个不错的算法选择。不同类别对应的属性集之间似乎存在复杂的边界,哪种算法能实现最佳预测性能还有待观察。

在深入研究新数据集时,有一些工具能帮助我们理解如何构建预测模型:
- 数据基本信息 :了解数据集的大小、形状,确定属性和标签的类型,这有助于规划数据预处理和训练预测模型的方向。
- 统计研究
- 简单描述性统计 :如均值、方差和分位数。
- 二阶统计量 :属性之间的相关性,以及属性与标签之间的相关性。对于属性与二进制标签的相关性,需要采用与实数(回归标签)不同的技术。
- 可视化技术
- Q - Q图 :用于可视化数据中的异常值行为。
- 平行坐标图 :用于可视化属性与标签之间的关系。

2. 机器学习模型性能影响因素

不同类型的机器学习问题,对性能有不同的技术定义。例如,在电子商务应用中,良好的性能可能意味着返回正确的搜索结果或展示网站访问者频繁点击的广告;在基因问题中,可能意味着分离出导致遗传疾病的几个基因。

选择和拟合预测算法的目标是实现最佳性能,这涉及三个因素:
- 问题的复杂度

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值