45、基于同质粒化的缺失值吸收及不完整数据规则集复杂度分析-优快云博客

本文链接：https://blog.youkuaiyun.com/opencv7vision/article/details/153624152

基于同质粒化的缺失值吸收及不完整数据规则集复杂度分析

1. 基于同质粒化的缺失值吸收

1.1 研究背景与方法概述

在数据处理中，缺失值是一个常见的问题。为了解决这一问题，研究人员开发了新的粒化方法——同质粒化方法。与之前的算法相比，这种方法在决策系统的近似水平上并非最高，但它的基本优势在于其动态特性，无需估计任何参数。粒化水平取决于决策类的不可分辨比率。此外，该方法不仅在数据近似方面有成功应用，还在集成模型中发挥了作用，例如开发了随机粒反射集成的新技术。

1.2 缺失值吸收策略

考虑了四种缺失值吸收策略：
1. 策略 A ：构建粒时，“ ”表示“不关心”；修复未吸收的值时，“ ”也表示“不关心”。
2. 策略 B ：构建粒时，“ ”表示“不关心”；修复未吸收的值时，“ ”表示“ ”。
3. 策略 C ：构建粒时，“ ”表示“ ”；修复未吸收的值时，“ ”表示“不关心”。
4. 策略 D ：构建粒时，“ ”表示“ ”；修复未吸收的值时，“ ”表示“ ”。

在粒化过程中，对于策略 A 和 B，“ ”被视为所有可能的值；对于策略 C 和 D，“ ”被视为系统中的新值。具体的粒定义如下：
- 当“ = 不关心”时，第 i 个训练数据集 TRNi 的粒化阶段，粒的定义为：
- (g_{cd, * = don’t care}^{r_{gran}}(u) = {v \in TRN_i : \frac{|IND_{ = don’t care}(u, v)|}{|A|} \leq r_{gran} \text{ AND } d(u) = d(v)})
- 其中 (IND_{ = don’t care}(u, v) = {a \in A : a(u) = a(v) \text{ OR } a(u) = * \text{ OR } a(v) = })
- 当“ = ”时，策略 C 和 D 中使用的粒的形式为：
- (g_{cd, * = }^{r_{gran}}(u) = {v \in TRN_i : \frac{|IND_{ = }(u, v)|}{|A|} \leq r_{gran} \text{ AND } d(u) = d(v)})
- 其中 (IND_{ = *}(u, v) = {a \in A : a(u) = a(v)})

在修复阶段：
- 当“ = 不关心”时，对于策略 A 和 C，为了修复粒化后包含缺失值的对象，将特定位置 j 带有“ ”的对象浸入原始受干扰的训练集中，通过对属性 j 的非缺失值进行多数投票来填充“ ”的值。
- 当“ = ”时，对于策略 B 和 D，同样将带有“ ”的对象浸入原始受干扰的训练数据集中，基于属性 j 的非缺失值的多数投票来填充“*”。

1.3 同质粒化的具体情况

当“* = 不关心”时，粒的形成方式为：
(g_{homogenous, * = don’t care}^{r_u} = {v \in U : |g_{cd, * = don’t care}^{r_u}| - |g_{* = don’t care}^{r_u}| == 0, \text{ for minimal } r_u \text{ fulfills the equation}})
其中 (g_{cd, * = don’t care}^{r_u} = {v \in U : \frac{IND_{* = don’t care}(u, v)}{|A|} \leq r_u \text{ AND } d(u) == d(v)})
(g_{ = don’t care}^{r_u} = {v \in U : \frac{IND_{ = don’t care}(u, v)}{|A|} \leq r_u})
(r_u = { \frac{0}{|A|}, \frac{1}{|A|}, …, \frac{|A|}{|A|}})
当“ = ”时，有：
(g_{homogenous, * = }^{r_u} = {v \in U : |g_{cd, * = }^{r_u}| - |g_{ = }^{r_u}| == 0, \text{ for minimal } r_u \text{ fulfills the equation}})
其中 (g_{cd, * = }^{r_u} = {v \in U : \frac{IND_{ = *}(u, v)}{|A|} \leq r_u \text{ AND } d(u) == d(v)})
(g_{ = }^{r_u} = {v \in U : \frac{IND_{ = }(u, v)}{|A|} \leq r_u})
(r_u = { \frac{0}{|A|}, \frac{1}{|A|}, …, \frac{|A|}{|A|}})

1.4 实验过程与结果评估

1.4.1 实验设计伪代码

实验步骤如下：
1. 上传选定的数据集。
2. 根据 5 折交叉验证模型分割数据。
3. 使用选定的方法对训练决策系统 (TRN_{complete}^i) 进行粒化。
4. 使用 (TRN_{complete}^i) 集通过 kNN 分类器对 (TST_i) 进行分类（这是零结果）。
5. 向 (TRN_{complete}^i) 中填充 10% 随机位置的“*”。
6. 在粒化过程中，使用选定的缺失值处理策略（A、B、C 或 D）处理 (TRN_i)。
7. 使用修复后的粒化系统通过 kNN 分类器对 (TST_i) 系统进行分类。
8. 最终结果是所有五次测试的平均值。

上述 CV5 过程重复 5 次，最终结果是所有测试的平均值。

1.4.2 结果评估公式

为了评估结果，提出计算 5 × CV - 5 的准确率偏差，公式如下：
(AccBias = \frac{\sum_{i = 1}^{5}(max(acc_{CV5}^1, acc_{CV5}^2, …, acc_{CV5}^5) - acc_{CV5}^i)}{5})
其中 (Acc = \frac{\sum_{i = 1}^{5} acc_{CV5}^i}{5})

作为参考分类器，在决策类中使用 kNN，当一个类的 k 个最近邻对象的总距离最小时，该类获胜。参数 k 根据 5 折交叉验证方法在数据样本上进行估计。对于澳大利亚信用数据集，使用 (k = 5)；对于皮马印第安人糖尿病数据集，使用 (k = 3)。

1.4.3 结果讨论

经典参数化概念依赖粒化和同质粒化的结果分别列于不同的表格中。研究发现，粒化在缺失值吸收方面是有效的。对于所有检查的技术，与原始无缺失值的数据相比，受损数据的分类质量得以保留。在粒化技术中，概念依赖方法甚至可以将对象数量减少到原始训练数据大小的 80%。

不同策略和数据类型会影响结果。例如，对于澳大利亚信用和皮马印第安人糖尿病等属性值多样性高的典型数据集，策略 A 和 B 在较低的粒化半径值下近似速度更快，因为“ = 不关心”时粒包含更多对象；而“ = ”时，近似结果与零结果相似，但稍慢，因为“ ”会增加数据的多样性，导致粒中对象数量减少，覆盖的粒数量增加。

同质粒化在缺失值吸收方面的表现与经典概念依赖技术不同。受损数据会增加覆盖中粒的数量，粒变小，因为决策类的不可分辨水平降低。策略 A 和 B 的粒比策略 C 和 D 的粒小，因此前者的粒化决策系统更大。该方法工作稳定，结果与零结果完全可比，其最大优势是粒化半径根据每个决策类中围绕中心对象的不可分辨水平自动为每个粒固定。

1.5 结论

同质粒化在缺失值吸收方面与经典概念依赖技术的工作方式不同。在概念依赖方法中，“ = 不关心”的粒化过程会降低数据集中的多样性，而“ = *”可能会增加多样性。策略 C 和 D 的粒比策略 A 和 B 的粒小，因此 A 和 B 策略的训练决策系统的粒反射大小更小，近似水平更高。受损系统粒化时，训练决策系统大小的减少与未受损数据集的粒化相比更为显著，在许多情况下，缺失值会提高近似水平。

对于同质变体，粒化半径动态增加，直到粒中的对象仅属于中心对象类。与在未受损数据上进行粒化的零情况相比，同质粒化过程中的对象数量增加。策略 A 和 B 的粒比策略 C 和 D 的粒小，因为“ = 不关心”比“ = *”更能破坏决策类的同质性。受损数据集的近似水平会降低，因为在所有变体中，类的同质性都会受到影响。

总体而言，粒化技术能有效地吸收缺失值，在分类过程中，从完整数据中获得的知识判断在很大程度上得以保留。在 CV 模型中，分类准确率与无缺失值的数据相比处于合理水平。对于每种方法，大多数缺失值在粒化过程中得到修复，因此缺失值修复部分对分类的影响较小，结果具有可比性。

2. 不完整数据挖掘中规则集复杂度分析

2.1 研究背景与目标

在不完整数据集中，缺失属性值有两种解释：丢失值和“不关心”条件。在数据挖掘中，使用了两种概率近似方法：全局和饱和。之前的研究通过十折交叉验证评估的错误率作为质量标准，比较了两种缺失属性值解释与两种概率近似方法的四种组合方法，结果表明虽然存在显著差异（显著性水平为 5%），但没有一种方法是绝对的赢家。因此，本文的主要目标是比较这四种方法诱导的规则集的复杂度。

2.2 缺失属性值的解释

丢失值 ：如果原始值被擦除或未插入，则认为缺失属性值是丢失值。在这种情况下，数据挖掘应仅使用现有的指定属性值，丢失值用“?”表示。
“不关心”条件 ：表示缺失属性值无关紧要，可以用任何指定的属性值替换，用“*”表示。

2.3 规则集复杂度比较结果

研究表明，四种方法之间存在显著差异，但使用的概率近似方法之间的差异不显著。唯一显著的差异在于两种缺失属性值的解释。主要结果是，使用“不关心”条件解释缺失属性值可以显著降低诱导规则集的复杂度。

2.4 研究展望

未来计划扩展技术，在知名分类器的背景下检查其有效性，以找到特定数据集最有效的方法。另一个研究方向是将粒化技术应用于使用卷积深度神经网络的图像识别过程中。

以下是整个研究过程的 mermaid 流程图：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A(开始):::process --> B(数据准备:上传数据集):::process
    B --> C(5折交叉验证分割数据):::process
    C --> D(训练决策系统粒化):::process
    D --> E(使用kNN分类器对TST进行分类:零结果):::process
    E --> F(向训练数据填充10%缺失值):::process
    F --> G(选择缺失值处理策略):::process
    G --> H(使用策略处理训练数据):::process
    H --> I(使用修复后粒化系统对TST分类):::process
    I --> J(计算5次测试平均值):::process
    J --> K(重复CV5过程5次):::process
    K --> L(计算准确率偏差):::process
    L --> M(分析结果:比较不同策略和方法):::process
    M --> N(得出结论:评估方法有效性和规则集复杂度):::process
    N --> O(未来研究计划:扩展技术和应用):::process
    O --> P(结束):::process

综上所述，通过对基于同质粒化的缺失值吸收和不完整数据规则集复杂度的研究，我们对数据处理和挖掘中的相关问题有了更深入的理解，为未来的数据处理和分析提供了有价值的参考。

3. 方法对比与应用拓展

3.1 两种方法的综合对比

为了更清晰地区分基于同质粒化的缺失值吸收方法和不完整数据挖掘中规则集复杂度分析方法，我们可以从多个方面进行对比。

对比维度	基于同质粒化的缺失值吸收方法	不完整数据挖掘中规则集复杂度分析方法
核心目标	有效吸收数据中的缺失值，保留分类知识判断	比较不同方法诱导的规则集复杂度
处理对象	存在缺失值的数据集	具有两种缺失属性值解释的不完整数据集
主要策略	四种缺失值吸收策略（A、B、C、D）	两种概率近似方法（全局和饱和）与两种缺失属性值解释的组合
结果影响因素	粒化半径、策略类型、数据属性值多样性	缺失属性值的解释方式、概率近似方法

从这个对比表格中可以看出，两种方法虽然都围绕不完整数据展开，但侧重点和处理方式有明显不同。基于同质粒化的方法更注重缺失值的吸收和数据的粒化处理，而规则集复杂度分析方法则聚焦于规则集的复杂度评估。

3.2 应用场景分析

不同的方法适用于不同的应用场景，以下是对两种方法应用场景的分析：
- 基于同质粒化的缺失值吸收方法 ：
- 数据预处理阶段 ：当数据集存在大量缺失值，且需要在不损失过多信息的前提下进行数据清洗时，该方法可以有效地吸收缺失值，为后续的数据分析和挖掘提供高质量的数据。
- 对数据规模有要求的场景 ：由于该方法在粒化过程中可以减少对象数量，对于大规模数据集，能够降低数据处理的复杂度，提高处理效率。
- 不完整数据挖掘中规则集复杂度分析方法 ：
- 规则生成阶段 ：在数据挖掘过程中，需要生成规则集时，该方法可以帮助选择合适的方法，以生成复杂度较低的规则集，提高规则的可解释性和实用性。
- 对规则复杂度敏感的场景 ：在一些对规则复杂度有严格要求的应用中，如医疗决策支持、金融风险评估等，该方法可以确保生成的规则既准确又易于理解。

3.3 操作步骤总结

基于同质粒化的缺失值吸收方法操作步骤

数据准备 ：上传选定的数据集，并根据 5 折交叉验证模型分割数据。
粒化处理 ：使用选定的方法对训练决策系统进行粒化，同时根据不同的缺失值处理策略（A、B、C、D）处理数据。
分类与评估 ：使用 kNN 分类器对测试集进行分类，重复 CV5 过程 5 次，计算准确率和准确率偏差，评估方法的有效性。

不完整数据挖掘中规则集复杂度分析方法操作步骤

数据理解 ：明确不完整数据集中缺失属性值的两种解释（丢失值和“不关心”条件）。
方法选择与应用 ：选择全局和饱和两种概率近似方法，与两种缺失属性值解释进行组合，应用于数据挖掘过程。
复杂度评估 ：比较不同组合方法诱导的规则集复杂度，分析结果并选择合适的方法。

3.4 未来研究方向的具体设想

与知名分类器结合

未来可以将上述方法与更多知名分类器相结合，如支持向量机（SVM）、决策树（Decision Tree）等。具体操作步骤可以如下：
1. 选择合适的知名分类器，并对其进行参数调优。
2. 将基于同质粒化的缺失值吸收方法或不完整数据挖掘中规则集复杂度分析方法处理后的数据输入到分类器中。
3. 通过交叉验证等方法评估分类器的性能，比较不同组合的效果，找出最适合特定数据集的方法。

应用于图像识别

在图像识别领域应用粒化技术，可以按照以下步骤进行：
1. 数据预处理：将图像数据转换为适合粒化处理的格式，处理其中可能存在的缺失值。
2. 粒化处理：运用同质粒化方法对图像数据进行粒化，提取图像的特征。
3. 模型构建：使用卷积深度神经网络构建图像识别模型，将粒化后的图像数据输入到模型中进行训练。
4. 模型评估与优化：通过测试集评估模型的性能，根据评估结果对模型进行优化。

以下是将两种方法应用于不同场景的 mermaid 流程图：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A(不完整数据集):::process --> B{选择方法}:::process
    B -->|基于同质粒化的缺失值吸收方法| C(数据预处理):::process
    C --> D(粒化处理):::process
    D --> E(分类与评估):::process
    E --> F(应用于数据挖掘、数据分析等场景):::process
    B -->|不完整数据挖掘中规则集复杂度分析方法| G(规则生成):::process
    G --> H(复杂度评估):::process
    H --> I(选择合适方法):::process
    I --> J(应用于医疗决策、金融风险评估等场景):::process

通过对基于同质粒化的缺失值吸收和不完整数据规则集复杂度的研究，我们不仅深入了解了这两种方法的原理和应用，还为未来的研究和实践提供了方向。在实际应用中，可以根据具体的需求和场景选择合适的方法，以提高数据处理和挖掘的效率和质量。