14、基于机器学习的模型驱动数据仓库自动化实验研究-优快云博客

本文链接：https://blog.youkuaiyun.com/terraform7cloud/article/details/152261318

基于机器学习的模型驱动数据仓库自动化实验研究

1. 上下文概念与学习策略

在机器学习领域，上下文信息的利用至关重要。不同的研究对上下文有着不同的定义和应用策略。有学者提供了精确、正式的上下文定义，并列出了四种利用上下文信息的通用策略。还有学者引入了增强架构，使神经求解器能够进行上下文学习。

然而，在依赖上下文学习（DCL）中，上下文信息的概念有所不同。在DCL里，上下文信息是学习过程的结果，它将形成转换规则；而在上下文学习策略中，上下文是输入信息的一部分，用于提高学习者的性能。

2. 实验设置

本次实验主要对比两种方法：独立上下文学习（ICL）和依赖上下文学习（DCL）。
- 数据模型 ：使用工业合作伙伴提供的一组现实世界数据模型，以及微软AdventureWorks 2008R2示例数据库系列参考数据库。其中，AdventureWork - sOLTP作为操作数据库定义源模型（DSPIM），AdventureWorksDW作为数据仓库模式定义目标模型（MDPIM）。数据库元素（类、属性和关联）被编码为背景知识（B），元素之间的映射实例用于定义正（E +）和负（E -）示例。各概念的示例数量如下表所示：
| 概念 | 示例数量 |
| — | — |
| EclassToCube | 71 |
| EpropertyToMeasure | 249 |
| EPropertyToDimension | 245 |
| ERelationShipToDimension | 93 |
| EElementToHierarchyPath | 338 |
| EElementToDimensionLevel | 338 |

学习引擎与参数设置 ：使用Aleph ILP引擎学习一阶规则。运行Aleph时，除了minpos和noise参数外，采用默认模式。设置minpos参数为2，表示每个规则在理论中覆盖的最小正示例数；设置noise参数为5和10，用于报告学习性能，通过改变可接受子句允许覆盖的负示例数。使用YAP（Yet Another Prolog）作为Prolog编译器来运行Aleph。
对比方法 ：
- ICL方法 ：独立学习所考虑的概念集。
- DCL方法 ：考虑依赖图来学习概念，有两种设置：
  - DCLI ：依赖概念（父概念）的背景知识B用其子实例更新。
  - DCLR ：依赖概念的背景知识B用其子内涵定义更新。

概念之间的依赖关系如下：

graph LR
    A[ClassToCube] --> B[PropertyToMeasure]
    A --> C[PropertyToDimension]
    A --> D[RelationShipToDimension]
    C & D --> E[ElementTo-HierarchyPath]
    C & D --> F[ElementToDimensionLevel]

3. 实验结果与讨论

训练模型和示例数量对性能的影响 ：使用准确率来衡量机器学习性能，准确率定义为：$Accuracy = \frac{TP + TN}{P + N}$，其中P（N）是分类为正（负）的示例数量，TP（TN）是分类为正（负）且确实为正（负）的示例数量。当前基于AdventureWorks新数据集的实验准确率证实了之前研究的结果。
DCL与ICL方法性能比较 ：使用接收者操作特征（ROC）图来可视化、组织和选择分类器。ROC图的指标包括真阳性率（tprate，也称为命中率和召回率 = 灵敏度）和假阳性率（fprate，也称为误报率 = 1 - 特异性）。真阳性率估计为：$tprate = \frac{TP}{TP + FN}$，假阳性率估计为：$fprate = \frac{FP}{FP + TN}$。

在ROC图中，tprate绘制在Y轴上，fprate绘制在X轴上。为了评估子概念规则质量对父概念学习性能的影响，在DCL方法中进行了子概念有噪声的实验。向非依赖概念（ClassToCube）添加噪声，并观察不同可接受噪声设置（n = 5和n = 10）下依赖概念的学习结果。报告了10%（N - DCLI和N - DCLR）和20%（N2 - DCLI和N2 - DCLR）示例有噪声的情况。

ROC曲线下的面积（AUC）是比较测试方法的常用指标，它也代表了一种准确率度量。实验结果表明：
- n = 10的设置比n = 5的设置性能更好，这证实了该参数的选择对于处理数据库模型中的噪声信息很重要。
- 比较ICL、DCLI和DCLR方法，DCLI的AUC大于其他测试方法。DCLI曲线几乎沿着ROC空间的左上角边界，因此与DCLR和ICL相比，它具有更好的平均性能（AUCDCLI > AUCDCLR > AUCICL）。ICL曲线几乎沿着ROC空间的45度对角线，代表随机分类器。DCLR设置相对于ICL方法表现良好，但略逊于DCLI设置。

不同概念的学习结果受子概念噪声的影响程度不同。例如，PropertyToDimension和RelationShipToDimension比PropertyToMeasure受影响更大，因为它们高度依赖于ClassToCube。ElementToHierarchyPath和ElementToDimensionLevel受ClassToCube噪声数据的影响较小，因为它们与ClassToCube没有直接依赖关系。

综上所述，本次实验在模型驱动的数据仓库自动化中，通过对比ICL和DCL方法，深入研究了训练模型、示例数量以及概念依赖关系对学习性能的影响。实验结果为机器学习在数据仓库领域的应用提供了有价值的参考，特别是DCL方法在处理概念依赖关系时展现出了显著的性能优势。未来的研究可以进一步探索在考虑业务目标模型时的转换情况，以及将该方法扩展到具有更大依赖图的新应用领域。

基于机器学习的模型驱动数据仓库自动化实验研究

4. 不同噪声设置下的实验结果分析

在DCL方法中，为了更深入地了解子概念噪声对父概念学习性能的影响，进行了不同噪声比例的实验。具体是向非依赖概念ClassToCube添加噪声，观察不同可接受噪声设置（n = 5和n = 10）下依赖概念的学习结果。以下是不同噪声比例下各概念学习结果的详细分析：

噪声比例	方法	概念	受影响程度
10%	N - DCLI、N - DCLR	PropertyToDimension、RelationShipToDimension	受影响较大，性能有所下降
10%	N - DCLI、N - DCLR	PropertyToMeasure	受影响相对较小
10%	N - DCLI、N - DCLR	ElementToHierarchyPath、ElementToDimensionLevel	受影响较小，因为与ClassToCube无直接依赖
20%	N2 - DCLI、N2 - DCLR	PropertyToDimension、RelationShipToDimension	受影响显著，如RelationShipToDimension的N2 - DCLI曲线接近45度对角线，性能接近随机分类器
20%	N2 - DCLI、N2 - DCLR	PropertyToMeasure	受影响程度相对前两者较小
20%	N2 - DCLI、N2 - DCLR	ElementToHierarchyPath、ElementToDimensionLevel	受影响较小，但仍有一定性能下降

从这些结果可以看出，概念对噪声的敏感程度与其对ClassToCube的依赖程度密切相关。依赖程度越高，受噪声的影响就越大。这也为实际应用中处理噪声数据提供了重要的参考，即在学习依赖概念时，需要特别关注非依赖概念的噪声情况，尤其是对于依赖程度高的概念。

5. 实验结论与未来展望

本次实验聚焦于模型驱动的数据仓库自动化这一复杂的机器学习应用场景。通过使用标准算法和设计特定架构，将机器学习的影响限制在需要从经验中学习的区域。同时，发现了学习依赖概念这一有趣的机器学习问题。

实验结果表明，所提出的DCL方法在推导模型驱动数据仓库的转换规则方面，相比标准方法（如ICL）有显著的性能提升。从业务角度来看，学习得到的理论通常与人类专家给出的理论相近，这说明该方法在实际应用中有较高的可靠性和实用性。

未来的工作将围绕以下两个主要方向展开：
- 考虑业务目标模型的转换 ：例如，研究从（DSPIM，MDCIM）对中推导MDPIM的情况，其中MDCIM定义了组织的需求和目标。这将使机器学习在数据仓库自动化中的应用更加贴合实际业务需求，提高数据仓库的实用性和针对性。
- 扩展到新的应用领域 ：计划将该方法扩展到具有更大依赖图的新应用领域，如数据仓库架构中的提取、转换和加载（ETL）过程。这些领域通常存在复杂的概念依赖关系，该方法的应用有望解决其中的机器学习问题，提高数据处理的效率和准确性。

6. 总结

本次实验研究为模型驱动的数据仓库自动化提供了一种有效的机器学习解决方案。通过对比ICL和DCL方法，深入分析了训练模型、示例数量、概念依赖关系以及噪声对学习性能的影响。DCL方法在处理概念依赖关系时展现出了显著的性能优势，为机器学习在数据仓库领域的应用提供了新的思路和方法。未来的研究将进一步拓展该方法的应用范围，使其更好地服务于实际业务需求。

graph LR
    A[当前实验] --> B[DCL方法性能提升]
    A --> C[发现学习依赖概念问题]
    B --> D[未来考虑业务目标模型转换]
    B --> E[扩展到新应用领域]

总之，随着技术的不断发展和应用需求的不断变化，机器学习在数据仓库自动化领域的应用前景广阔。本次实验的研究成果为后续的研究和实践奠定了坚实的基础，有望推动该领域的进一步发展。