8、机器学习预测模型构建：平衡性能、复杂度与数据

transformer2023

于 2025-09-16 13:03:55 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握机器学习双引擎文章标签：机器学习预测模型模型性能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/transformer2023/article/details/152467402

掌握机器学习双引擎专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习预测模型构建：平衡性能、复杂度与数据

1. 数据探索与问题理解

在处理玻璃数据的探索性研究中，发现了一个有趣的问题。箱线图和平行坐标图显示，如果有足够的数据，集成方法可能是一个不错的算法选择。不同类别对应的属性集之间似乎存在复杂的边界，哪种算法能实现最佳预测性能还有待观察。

在深入研究新数据集时，有一些工具能帮助我们理解如何构建预测模型：
- 数据基本信息 ：了解数据集的大小、形状，确定属性和标签的类型，这有助于规划数据预处理和训练预测模型的方向。
- 统计研究 ：
- 简单描述性统计 ：如均值、方差和分位数。
- 二阶统计量 ：属性之间的相关性，以及属性与标签之间的相关性。对于属性与二进制标签的相关性，需要采用与实数（回归标签）不同的技术。
- 可视化技术 ：
- Q - Q图 ：用于可视化数据中的异常值行为。
- 平行坐标图 ：用于可视化属性与标签之间的关系。

2. 机器学习模型性能影响因素

不同类型的机器学习问题，对性能有不同的技术定义。例如，在电子商务应用中，良好的性能可能意味着返回正确的搜索结果或展示网站访问者频繁点击的广告；在基因问题中，可能意味着分离出导致遗传疾病的几个基因。

选择和拟合预测算法的目标是实现最佳性能，这涉及三个因素：
- 问题的复杂度

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。