4、机器学习关键技术解析

week9

于 2025-08-29 16:28:29 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏： AI重塑药物研发文章标签：机器学习特征选择数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/week9/article/details/152117782

AI重塑药物研发专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习关键技术解析

1. 特征选择与数据处理

在处理数据集时，特征选择是一个重要的环节。在非常小的数据集里，除非特征之间存在高度相关性，否则特征选择可能并不重要。但当有数百个描述符时，就需要思考是否所有描述符都同等重要。

一种流行的特征消除方法是递归特征消除，它主要有两个方向：
- 从完整的特征集开始，递归地移除特征，构建模型并评估其性能，通过尝试不同的特征组合，找出能带来最佳准确率的组合。
- 从单个特征开始，逐步添加特征，观察性能的提升，直到性能不再提高为止。

同时，预测的质量取决于用于学习的数据。如果数据质量差或存在偏差，学习算法只能从这些不良数据中学习，这会反映在输出的质量上。

在数据中，还存在被审查和缺失的情况：
- 被审查的数据 ：由于审查机制，数据可能只能部分已知。例如，设备测量限制就是一种典型的审查情况，低于审查阈值的真实观测值是已知的，但高于阈值的观测值只会记录审查上限。当审查是设计使然时，可能无需处理这些数据；但有时通过建模来处理审查值并进行插补会更好，常见的做法是对变量的总体分布做出假设，然后使用该分布对要插补的值进行建模。
- 缺失的数据 ：缺失数据可能由多种原因造成，如测量设备故障，或者本身就反映了测量限制。在体内研究中，动物死亡也会导致观测值缺失。处理缺失值的方法有：
- 移除包含缺失值的记录。
- 插补值。如果数据是随机缺失且需要插补，可以使用以下方法：用平均值插补，或者根据缺失原因（如灵敏度限制）用均值或最大值插补；多次插补也是常见的方法。如果数据不是随机缺失且原因已知，应尽可能将这些信息纳入

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。