4、机器学习关键技术解析

机器学习关键技术解析

1. 特征选择与数据处理

在处理数据集时,特征选择是一个重要的环节。在非常小的数据集里,除非特征之间存在高度相关性,否则特征选择可能并不重要。但当有数百个描述符时,就需要思考是否所有描述符都同等重要。

一种流行的特征消除方法是递归特征消除,它主要有两个方向:
- 从完整的特征集开始,递归地移除特征,构建模型并评估其性能,通过尝试不同的特征组合,找出能带来最佳准确率的组合。
- 从单个特征开始,逐步添加特征,观察性能的提升,直到性能不再提高为止。

同时,预测的质量取决于用于学习的数据。如果数据质量差或存在偏差,学习算法只能从这些不良数据中学习,这会反映在输出的质量上。

在数据中,还存在被审查和缺失的情况:
- 被审查的数据 :由于审查机制,数据可能只能部分已知。例如,设备测量限制就是一种典型的审查情况,低于审查阈值的真实观测值是已知的,但高于阈值的观测值只会记录审查上限。当审查是设计使然时,可能无需处理这些数据;但有时通过建模来处理审查值并进行插补会更好,常见的做法是对变量的总体分布做出假设,然后使用该分布对要插补的值进行建模。
- 缺失的数据 :缺失数据可能由多种原因造成,如测量设备故障,或者本身就反映了测量限制。在体内研究中,动物死亡也会导致观测值缺失。处理缺失值的方法有:
- 移除包含缺失值的记录。
- 插补值。如果数据是随机缺失且需要插补,可以使用以下方法:用平均值插补,或者根据缺失原因(如灵敏度限制)用均值或最大值插补;多次插补也是常见的方法。如果数据不是随机缺失且原因已知,应尽可能将这些信息纳入

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值