线性随机模型与特征加权的离群点分析在数据处理中的应用
1. 线性随机模型用于数据恢复
1.1 背景与问题提出
在当今,处理大量数据的系统备受关注。然而,现实中数据往往不完整,存在缺失值。例如,一家公司的销售数据可能因某些原因出现部分缺失。为解决数据缺失问题,人们提出了许多模型。而本文提出一种基于线性随机模型的新方法,旨在实现更准确的不完整数据恢复。
1.2 不完整数据恢复问题的定义
给定不完整数据恢复问题,输入为随机变量 (X_0, X_1, \cdots, X_{n - 1}),输出是未知随机变量 (X_n) 的值。为达到高精度,需最小化 (E(X_n - X^ )^2),其中 (X^ ) 是 (X_n) 的预测值。根据概率论,为使 (E(X_n - X^ )^2) 最小,应令 (X^ = E X_n)。但考虑到一系列随机变量间的关系,需用条件概率和条件数学期望替代普通概率和数学期望。
例如,有如下 (x) 和 (y) 的概率分布表:
| 条件概率 | 值 |
| — | — |
| (P(y = 1|x = 1)) | 0.1 |
| (P(y = 2|x = 1)) | 0.3 |
| (P(y = 1|x = 2)) | 0.2 |
| (P(y = 2|x = 2)) | 0.4 |
数学期望 (E x) 计算如下:
(E x = 1×(0.1 + 0.3) + 2×(0.2 + 0.4) = 1.6)
条件数学期望计算如下:
(E(x|y = 1) = 1×\
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



