常见的数据融合方法有:静态的融合方法,如加权最小平方等;动态的融合方法,如递归加权最小平方、卡尔曼滤波、小波变换的分布式滤波等;基于统计的融合方法,如马尔可夫随机场、最大似然法、贝叶斯值等;基于信息论算法的方法,如聚集分析、自适应神经网络、表决逻辑、信息熵;基于模糊集理论的聚类方法等。
数据清理的四个环节:处理缺失数据、处理重复数据、处理噪声数据、处理异常数据。
数据标准化是把区间较大的数据整合到一个相对较规则的区间中,包含标准差校准化、极筹标准化和极差正规化等:
(1)标准差标准化:将各个记录值减去记录值的平均值,再除以记录值的标准差,即:
其中,为平均值,其表达式为:
,设
是标准差,有:
经过标准差标准化处理的所有记录值的平均值为0,标准差为1.
(2)极差标准化:是数据标准化的另外一种常用方式。对记录值进行极差标准化变换是将各个记录值减去记录值的平均值,再除以记录值的极差,即:
经过极差标准化处理后的观测值的极差等于1.
(3)极差正规化:可以把所有的观测值转化到[0,1]的区间之内。对记录值进行极差正规化变换是将各个记录值减去记录值的极小值,再除以记录值的极差,即:
经过极差正规化处理后的每个观测值都在0~1之间。
(4)最小-最大规范化也是一样的数据标准化转换,把所有的数据转化到我们新设定的最小值和最大值的区间内。