异构缺失数据插补的集成学习方法
1. 引言
缺失数据是一个普遍存在的问题,它会严重影响研究质量,导致有偏差的估计和无效的结论。在各个领域,如健康、商业、调查以及自动化传感器等场景中,都可能出现缺失数据的情况。除了缺失值,系统还可能产生不精确、不完整、重复、错误和不一致的数据,这些问题在分析和学习过程中会显著影响数据结论,并可能对决策过程产生偏差。
在处理缺失数据方面,主要有三种常见的技术:
- 随机缺失(MAR) :某个属性出现缺失值的概率取决于另一个属性或观测值。
- 完全随机缺失(MCAR) :所有属性出现缺失值的概率与观测值无关。
- 非随机缺失(MNAR) :某个属性的缺失值严格依赖于其他属性或观测值中的值。
过去,处理缺失值问题主要从统计和基于模型的两个角度入手:
- 统计角度 :统计方法如均值、中位数、任意值、分布末端值和最频繁值(MFV)或众数等可以直接应用,但这些方法会引入一定程度的偏差,并且很多方法只适用于连续属性。
- 基于模型的角度 :基于模型的方法是定制的机器学习(ML)算法,通常将解决方案映射到特定问题上。其优点是能够快速原型化以满足特定需求,但缺点是需要为每个新问题制定解决方案。该方法允许进行单变量和多变量分析,但依赖属性间的相关性可能会导致即使两个属性有强相关性,它们在数据集中也可能代表不同的信息。
此外,分布式和异构数据场景中也会出现严重的缺失值问题。这些数据由不同的来源、提供者和格式生成,通
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



