机器学习关键技术解析
1. 特征选择与数据处理
在处理数据集时,特征选择是一个重要的环节。在非常小的数据集里,除非特征之间存在高度相关性,否则特征选择可能并不重要。但当有数百个描述符时,就需要思考是否所有描述符都同等重要。
一种流行的特征消除方法是递归特征消除,它主要有两个方向:
- 从完整的特征集开始,递归地移除特征,构建模型并评估其性能,通过尝试不同的特征组合,找出能带来最佳准确率的组合。
- 从单个特征开始,逐步添加特征,观察性能的提升,直到性能不再提高为止。
同时,预测的质量取决于用于学习的数据。如果数据质量差或存在偏差,学习算法只能从这些不良数据中学习,这会反映在输出的质量上。
在数据中,还存在被审查和缺失的情况:
- 被审查的数据 :由于审查机制,数据可能只能部分已知。例如,设备测量限制就是一种典型的审查情况,低于审查阈值的真实观测值是已知的,但高于阈值的观测值只会记录审查上限。当审查是设计使然时,可能无需处理这些数据;但有时通过建模来处理审查值并进行插补会更好,常见的做法是对变量的总体分布做出假设,然后使用该分布对要插补的值进行建模。
- 缺失的数据 :缺失数据可能由多种原因造成,如测量设备故障,或者本身就反映了测量限制。在体内研究中,动物死亡也会导致观测值缺失。处理缺失值的方法有:
- 移除包含缺失值的记录。
- 插补值。如果数据是随机缺失且需要插补,可以使用以下方法:用平均值插补,或者根据缺失原因(如灵敏度限制)用均值或最大值插补;多次插补也是常见的方法。如果数据不是随机缺失且原因已知,应尽可能将这些信息纳入
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



