46、数据挖掘与图像识别技术解析

数据挖掘与图像识别技术解析

数据挖掘中的概率近似与规则归纳

在数据挖掘领域,概率近似是粗糙集理论中上下近似概念的推广。概率近似与概率参数α相关,当α = 1时,概率近似退化为下近似;当α是一个较小的正数(如0.001)时,概率近似则为上近似。通常,概率近似应用于完全指定的数据集,后来也被推广到不完整的数据集。

不完整数据的表示

输入数据集通常以决策表的形式呈现。例如,下面的决策表展示了不同病例的属性和决策信息:
| Case | Temperature | Headache | Cough | Flu |
| ---- | ---- | ---- | ---- | ---- |
| 1 | high | * | no | yes |
| 2 | * |? | no | yes |
| 3 | high | * | yes | yes |
| 4 | very - high | yes | * | yes |
| 5 | high | no |? | no |
| 6 | * |? | yes | no |
| 7 |? | no | no | no |
| 8 | normal | no | * | no |

在这个决策表中,行代表病例,列由变量标记。所有病例的集合用U表示,这里U = {1, 2, 3, 4, 5, 6, 7, 8}。独立变量称为属性,依赖变量称为决策,用d表示。所有属性的集合用A表示,这里A = {Temperature, Headache, Cough}。对于病例x和属性a,其值用a(x)表示,如Temperature(1) = high。

由决策d的相同值定义的所有病例的集合X称为概念。例如,决策Flu的值为yes的概念是集合{1, 2, 3, 4}。对于变量a及其值v,(a, v)称为变量 - 值对。(a, v)的块[(a, v)]定义为{x ∈ U | a(x) = v}。对于不完整的决策表,属性 - 值对的块的定义有如下修改:
- 如果对于属性a和病例x有a(x) =?,则病例x不应包含在属性a的所有值v的任何块[(a, v)]中。
- 如果对于属性a和病例x有a(x) = ∗,则病例x应包含在属性a的所有指定值v的块[(a, v)]中。

对于上述决策表,各属性 - 值对的块如下:
- [(Temperature, normal)] = {2, 6, 8}
- [(Temperature, high)] = {1, 2, 3, 5, 6}
- [(Temperature, very - high)] = {2, 4, 6}
- [(Headache, no)] = {1, 3, 5, 7, 8}
- [(Headache, yes)] = {1, 3, 4}
- [(Cough, no)] = {1, 2, 4, 7, 8}
- [(Cough, yes)] = {3, 4, 6, 8}

对于病例x ∈ U和B ⊆ A,特征集KB(x)定义为所有a ∈ B的集合K(x, a)的交集,其中集合K(x, a)的定义如下:
- 如果a(x)已指定,则K(x, a)是属性a及其值a(x)的块[(a, a(x))]。
- 如果a(x) =?或a(x) = ∗,则K(x, a) = U。

对于上述决策表和B = A,各病例的特征集如下:
- KA(1) = {1, 2}
- KA(2) = {1, 2, 4, 7, 8}
- KA(3) = {3, 6}
- KA(4) = {4}
- KA(5) = {1, 3, 5}
- KA(6) = {3, 4, 6, 8}
- KA(7) = {1, 7, 8}
- KA(8) = {8}

概率近似的类型

主要有两种类型的概率近似:全局概率近似和饱和概率近似。

全局概率近似 :其概念最初在某些文献中被引入,后以一般形式呈现。设X是一个概念,X ⊆ U。基于特征集的概念X的B - 全局概率近似,参数为α,记为apprglobalα,B(X),定义为集合{KB(x) | ∃Y ⊆ U ∀x ∈ Y, Pr(X|KB(x)) ≥ α}。由于计算B - 全局概率近似的算法具有指数级的计算复杂度,因此采用了启发式版本的定义,即MLEM2 B - 全局概率近似,记为apprmlem2α,B(X)。

计算MLEM2全局概率近似的算法步骤如下:

输入: 集合X (一个概念), 集合Eα(X)
输出: 集合T (apprmlem2α(X))
开始
    G := X;
    T := ∅;
    Y := Eα(X);
    当G ≠ ∅ 且 Y ≠ ∅ 时
    开始
        选择特征集K(x) ∈ Y,使得|K(x) ∩ X|最大;
        如果出现平局,选择Y中基数最小的K(x);
        如果再次出现平局,选择第一个K(x);
        T := T ∪ K(x);
        G := G - T;
        Y := Y - K(x)
    结束
结束

对于上述决策表,不同参数下的MLEM2全局概率近似如下:
- apprmlem21({1, 2, 3, 4}) = {1, 2, 4}
- apprmlem20.667({1, 2, 3, 4}) = {1, 2, 3, 4, 5}
- apprmlem20.6({1, 2, 3, 4}) = {1, 2, 3, 4, 5, 7, 8}
- apprmlem21({5, 6, 7, 8}) = {8}
- apprmlem20.667({5, 6, 7, 8}) = {1, 7, 8}
- apprmlem20.5({5, 6, 7, 8}) = {1, 3, 4, 6, 7, 8}
- apprmlem20.4({5, 6, 7, 8}) = {1, 2, 3, 4, 6, 7, 8}
- apprmlem20.333({5, 6, 7, 8}) = {1, 2, 3, 4, 5, 6, 7, 8}

饱和概率近似 :另一种启发式的概率近似方法,它在选择特征集时,优先考虑条件概率Pr(X|K(x))较大的特征集。如果近似覆盖了概念X中的所有病例,则停止添加特征集。

计算饱和概率近似的算法步骤如下:

输入: 集合X (一个概念), 集合Ei(x) 对于 i = 1, 2, ..., n 和 x ∈ U, 索引m
输出: 集合T (apprsaturatedαm(X))
开始
    T := ∅;
    Yi(x) := Ei(x) 对于所有 i = 1, 2, ..., m 和 x ∈ U;
    对于 j = 1, 2, ..., m 做
    当Yj(x) ≠ ∅ 时
    开始
        选择特征集K(x) ∈ Yj(x),使得|K(x) ∩ X|最大;
        如果出现平局,选择第一个K(x);
        Yj(x) := Yj(x) - K(x);
        如果 (K(x) - T) ∩ X ≠ ∅
        则 T := T ∪ K(x);
        如果 X ⊆ T 则退出
    结束
结束

对于上述决策表,不同参数下的饱和概率近似如下:
- apprsaturated1({1, 2, 3, 4}) = {1, 2, 4}
- apprsaturated0.667({1, 2, 3, 4}) = {1, 2, 3, 4, 5}
- apprsaturated1({5, 6, 7, 8}) = {8}
- apprsaturated0.667({5, 6, 7, 8}) = {1, 7, 8}
- apprsaturated0.5({5, 6, 7, 8}) = {1, 3, 4, 6, 7, 8}
- apprsaturated0.4({5, 6, 7, 8}) = {1, 2, 3, 4, 6, 7, 8}
- apprsaturated0.333({5, 6, 7, 8}) = {1, 2, 3, 4, 5, 6, 7, 8}

规则归纳

在构建了与参数α相关的全局和饱和概率近似后,使用基于另一个参数β(也解释为概率)的规则归纳算法来诱导规则集。参数β用于控制诱导规则的质量。如果一条规则覆盖了U的一个子集Y,并且该规则指示概念X,则当Pr(X|Y) ≥ β时,规则归纳系统会输出该规则。

例如,对于上述决策表,当α = β = 0.5时:
- 使用全局概率近似,MLEM2规则归纳算法诱导的规则如下:
- (Cough, yes) → (Flu, no)
- (Cough, no) & (Headache, no) → (Flu, no)
- (Cough, no) → (Flu, yes)
- 使用饱和概率近似,MLEM2规则归纳算法诱导的规则如下:
- (Cough, yes) → (Flu, no)
- (Cough, no) & (Headache, no) → (Flu, no)
- (Temperature, high) & (Headache, no) → (Flu, yes)
- (Temperature, very - high) & (Cough, no) → (Flu, yes)

图像识别中的注册技术

在图像识别领域,注册是图像处理和模式识别中的基本任务之一。图像对齐或注册是一种用于匹配在不同时间、从不同传感器或不同视点获取的两个或多个图片的技术。

图像注册的背景和应用

图像注册通常考虑的图像变化是由采集系统引起的,这些变化通常用某些空间变换来建模。常见的变换类型包括刚性、仿射、投影或全局多项式类型。刚性变换是旋转、平移和尺度变化的混合;仿射变换包括刚性、剪切和纵横比变化;投影变换描述了真实的成像几何,而多项式函数则对标准点映射技术引起的失真进行建模。

图像注册方法主要属于三个主要的计算机视觉研究领域:模式识别、医学图像分析和遥感数据处理。在计算机视觉和模式识别领域,注册用于分割、目标识别、形状重建、运动跟踪、OCR系统等;在医学图像分析中,用于疾病定位和监测;在遥感数据处理中,用于民用和军事应用。

已有的注册技术

文献中已经开发并报道了一系列注册技术,如基于地标注册、主轴变换(PAT)、多分辨率技术、边界注册、基于模型的方法、自适应方法和基于优化的注册等。基于优化的注册技术除了直接方法外,还包括一系列元启发式方法,如模拟退火、遗传算法、模因算法和粒子群优化等。

提出的进化算法方法

本文针对模式识别目的的二值图像注册问题,提出了基于进化算法的方法。这些方法特别适用于基于数字记录签名的安全系统,也可应用于由稀疏矩阵表示的二值图像。

在大多数情况下,要识别的签名可能是目标签名的几何失真变体。本文主要解决刚性变换问题(仅考虑平移、旋转和尺度变化),但模型可以很容易地扩展到仿射变换模型。所提出的算法使用基于变换图像和目标图像之间计算的互信息定义的适应度函数。

对于处理的图像类型,在大多数情况下,注册和识别任务可以仅使用图像轮廓来执行。因此,所提出的方法可以在灰度图像经过轮廓检测预处理步骤后应用。

混合两阶段技术 :该技术基于进化策略(ES)的基于种群的搜索方案(ESP)和局部搜索ES算法Two Membered Evolution Strategy(2M - ES)。其主要目的是在不显著降低识别精度的情况下加快计算速度。该技术是批量执行类型,包括两个阶段:
1. 首先,使用ESP技术计算具有高于特定阈值适应度的候选解。
2. 然后,将得到的最佳个体作为2M - ES算法的输入。

其基本思想是先应用全局搜索技术计算属于正确搜索方向的次优解,然后应用局部搜索算法来达到最优解。这种混合技术速度非常快,并且在精度方面表现良好。

模因算法 :该技术将ESP和2M - ES嵌入以获得模因算法。其最终目标是在保持计算复杂度增长在合理水平的同时提高识别精度。

为了实验验证所提出方法的性能,将它们与两种最常用的刚性类型扰动下的图像注册技术(PAT注册和基于ES种群的搜索方案)进行了比较。实验结果和关于所提出方法质量的结论将在后续部分报告。

数据挖掘与图像识别技术解析(续)

数据挖掘实验与结论

在数据挖掘方面,为了进一步探究不同方法的性能,进行了相关实验。实验使用了八个可在加利福尼亚大学欧文分校机器学习库中获取的数据集。

实验数据处理

对于每个数据集,创建了一个模板。具体操作是随机将现有指定属性值的35%替换为缺失值。相同的模板用于构建具有“不关心”条件的数据集,即将“?”替换为“*”。

在所有实验中,参数α设定为0.5。实验结果通过一系列图表展示,其中“Global”表示MLEM2全局概率近似,“Saturated”表示饱和概率近似,“?”表示缺失值,“*”表示“不关心”条件。

实验采用了四种挖掘不完整数据集的方法,这是通过将两种概率近似选项(全局和饱和)与两种缺失属性值的解释(丢失和“不关心”条件)相结合得到的。

实验结果分析

为了比较这四种方法,使用了无分布的Friedman秩和检验,随后进行了事后检验(基于Friedman秩和的无分布多重比较),显著性水平设定为5%。Friedman检验的原假设H0声称这些方法之间的差异不显著,但对于所有数据集,该原假设都被拒绝。

进一步对其余六个数据集进行事后无分布的所有处理多重比较Friedman、Kendal - Babington和Smith检验,结果表明两种概率近似(全局和饱和)之间的差异不显著。然而,两种缺失属性值解释之间的差异是显著的。使用“不关心”条件解释缺失属性值显著降低了诱导规则集的复杂度。

以下是一个简单的表格总结实验结果:
| 比较内容 | 差异情况 |
| ---- | ---- |
| 全局和饱和概率近似 | 不显著 |
| 丢失和“不关心”条件解释 | 显著,“不关心”条件降低规则集复杂度 |

数据挖掘结论

综合来看,在挖掘不完整数据集时,比较了四种方法,即两种缺失属性值解释与两种概率近似的组合。以诱导规则集的复杂度作为质量标准,实验结果显示四种方法之间存在显著差异,但使用的概率近似之间的差异不显著。唯一显著的差异在于两种缺失属性值的解释,使用“不关心”条件解释缺失属性值能显著降低诱导规则集的复杂度。

图像识别实验及总结

在图像识别方面,为了验证所提出的进化算法方法的性能,进行了一系列实验。

图像识别实验设置

将提出的混合两阶段技术和模因算法与两种最常用的刚性类型扰动下的图像注册技术(PAT注册和基于ES种群的搜索方案)进行比较。实验从以下几个方面衡量算法的性能:
- 成功率
- 互信息相似度度量
- 信噪比
- 运行时间

图像识别实验流程

下面是实验的流程,用mermaid流程图表示:

graph LR
    A[准备图像数据] --> B[应用PAT注册和ES种群搜索方案]
    A --> C[应用混合两阶段技术]
    A --> D[应用模因算法]
    B --> E[计算成功率、互信息、信噪比和运行时间]
    C --> E
    D --> E
    E --> F[比较结果得出结论]
图像识别实验结果推测

虽然文档中未明确给出实验结果,但可以推测,混合两阶段技术由于结合了全局搜索和局部搜索,可能在运行时间上具有优势,同时能保持一定的识别精度。而模因算法可能在识别精度上表现更好,因为其目标是在合理控制计算复杂度的情况下提高精度。

综合总结

数据挖掘和图像识别在各自领域都有着重要的应用和研究价值。在数据挖掘中,对于不完整数据集,选择合适的缺失属性值解释对规则集复杂度有显著影响;在图像识别中,基于进化算法的方法为图像注册问题提供了新的解决方案,有望在精度和效率上取得更好的平衡。

无论是数据挖掘还是图像识别,都需要不断探索和优化方法,以适应不同的应用场景和数据特点。未来可以进一步研究如何更好地结合不同的技术,提高整体性能。同时,对于实验结果的深入分析和解读也有助于发现潜在的问题和改进方向。

希望通过本文的介绍,能让读者对数据挖掘和图像识别中的相关技术有更深入的了解,为相关领域的研究和应用提供一定的参考。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值