24、数据集中缺失值模式的分析与可视化及频繁更新证据数据库的高效天际线维护

数据集中缺失值模式的分析与可视化及频繁更新证据数据库的高效天际线维护

1. 缺失值模式分析与可视化

在数据分析中,处理包含缺失值的数据集是一项常见且重要的任务。下面将介绍如何分析和可视化这些缺失值模式。

1.1 单调混合模式的启发式搜索

可以使用新颖的MMP - Finder算法来分析数据集并识别其中的单调混合模式。该算法的步骤如下:
1. 构建一个包含所有唯一缺失属性组合的字典,并按每个模式的行数进行排序。
2. 通过将下一个单调模式添加到已有的混合模式中,或者定义一个新的混合模式,来构建单调模式的混合。

MMP - Finder采用贪心方法来构建单调模式的混合,其复杂度为O(n + m²),其中n是记录数,m是唯一缺失属性集的数量。通常m远小于n。

使用MMP - Finder可以返回数据集中所有识别出的单调模式,以及属于每个单调模式的记录数和记录索引。需要注意的是,返回的解决方案不是唯一的,一个特定的单变量模式可能属于多个单调模式。

以下是MMP - Finder算法的代码:

# 给定:包含缺失值的输入属性x0, ..., xn的训练集X,目标属性y
# 创建一个包含所有唯一缺失属性组合的字典
CombinationsMissing = dict()
RecordsPerCombination = dict()
for all records xi ∈ X do
    combi = GetMissingAttributes(xi)
    if combi /∈ CombinationsMissing th
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值