含误差信息的数据鲁棒可视化挖掘与文本分类优化方法
在数据处理和分析领域,如何有效地处理含误差信息的数据以及优化文本分类算法是两个重要的研究方向。下面将分别介绍含误差信息的数据鲁棒可视化挖掘方法和一种增强质心分类器的有效方法。
含误差信息的数据鲁棒可视化挖掘
在处理含已知测量误差的数据时,需要一种能够有效检测和可视化有趣异常值的方法。为了对保留数据集进行处理,需要计算与每个测试点 $t_n$ 相关的 $w_n$ 和 $u_n$ 的后验分布。具体做法是固定从训练集获得的参数 $W$ 和 $\sigma$,然后执行 E 步迭代直至收敛,这种收敛速度通常比完整的训练过程至少快一个数量级。
合成数据的说明性实验
- 数据生成 :首先创建一个合成的干净数据集,它是从 $\Re^{10}$ 中三个分离良好的高斯分布的混合以及一个均匀分布中采样得到的,均匀分布用于模拟真正异常值的存在。然后为所有样本点添加高斯噪声,以模拟测量误差,得到的数据集作为算法的输入。
- 可视化展示 :目标是在存在添加误差的情况下,恢复并显示真正的异常值以及非异常值的密度。通过对比 2D 和 3D 可视化结果发现,由于异常值是一个连续的量,仅基于 2D 后验均值很难区分异常值,而 3D 显示则能很好地揭示它们。
- KNN 分类评估 :为了客观评估数据表示的准确性以及评估包含测量误差信息的好处,对保留集的可视化表示进行 k - 最近邻(KNN)分类器评估。结果表明,在所有测试的邻域大小下,所提出的算法比 t - GTM 具有更好的性能,
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



