机器学习中的中性类与重平衡设计模式
1. 堆叠分类与回归模型
在某些情况下,当预测降雨情况时,如果像素点无降雨,可以创建一个堆叠分类模型,随后使用回归模型,具体步骤如下:
1. 首先,预测是否会降雨。
2. 对于模型预测不太可能降雨的像素点,预测降雨量为零。
3. 训练一个回归模型,对模型预测可能降雨的像素点的降雨量进行预测。
需要注意的是,分类模型并非完美,因此回归模型必须在分类模型预测可能降雨的像素点上进行训练,而不仅仅是在标记数据集中对应降雨的像素点上训练。
2. 中性类设计模式
2.1 问题提出
假设要创建一个提供止痛药使用建议的模型,有布洛芬和对乙酰氨基酚两种选择。历史数据显示,有胃部问题风险的患者倾向于使用对乙酰氨基酚,有肝脏损伤风险的患者倾向于使用布洛芬,但除此之外,医生的选择较为随机,一些医生默认使用对乙酰氨基酚,另一些则使用布洛芬。在这样的数据集上训练二元分类器,准确率会很低,因为模型需要正确处理这些基本是随机的情况。
2.2 解决方案
如果电子病历系统在记录医生处方时,询问医生替代止痛药是否可接受,就可以基于此创建一个中性类。例如,医生开了对乙酰氨基酚,但记录显示医生对该患者使用布洛芬也持中立态度。这要求我们正确设计数据收集方式,不能事后制造中性类,而要从一开始就正确设计机器学习问题。如果只有历史数据集,则需要引入标注服务,让人工标注员验证医生的原始选择,并回答替代止痛药是否可接受的问题。
2.3 原理分析
2.3.1 合成数据
创建一个长度为 N 的合成数据集,其中 10
超级会员免费看
订阅专栏 解锁全文
821

被折叠的 条评论
为什么被折叠?



