17、构建可重现的 Oracle 机器学习 R 语言管道

最新推荐文章于 2025-10-26 06:22:21 发布

青柠汽水308

最新推荐文章于 2025-10-26 06:22:21 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏： Oracle数据库与机器学习文章标签： Oracle Machine Learning for R OML4R TensorFlow Data Validation

本文链接：https://blog.youkuaiyun.com/solidity8miner/article/details/151399131

Oracle数据库与机器学习专栏收录该内容

17 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

构建可重现的 Oracle 机器学习 R 语言管道

在机器学习领域，构建可重现的管道是确保实验结果准确性和可重复性的关键。本文将详细介绍如何设置 Oracle Machine Learning for R（OML4R），验证其安装，配置开源组件（如 DVC 和 TFDV），并展示如何实现数据验证、模型监控和实验跟踪等机器学习管道功能。

1. 设置 Oracle Machine Learning for R

OML4R 的客户端和服务器均使用 Oracle Linux 7 作为操作系统。OML 服务器上安装了 Oracle Database Release 19c，客户端和服务器端都安装了适用于 Oracle 数据库组件的 Oracle R Enterprise (ORE) 1.5.1。ORE 1.5.1 与 R - 3.3.0（包括开源 R 和 Oracle R Distribution）兼容，R - 3.3.0 与社区贡献的 R 支持包兼容。

需要安装的具体 R 包和版本如下：
- arules 1.5 - 0
- cairo 1.5 - 9
- DBI 0.6 - 1
- png 0.1 - 7
- ROracle 1.3 - 1
- statmod 1.4.29
- randomForest 4.6 - 12

所有这些组件都包含在适用于 Linux x86 - 64 的 Oracle Database Release 19c 中，可从 www.oracle.com/database/technologies/oracle19c - linux - downloads.html/ 下载。这些组件的版本在编写时是最新的，建议检查是否有更新版本。

2. 验证 Oracle Machine Learning for R 安装

为确保软件栈配置正确，需要验证 ORE 库是否可以加载以及是否可以从服务器和客户端访问数据库对象。

2.1 在服务器端验证 OML4R

首先，使用 ORE 脚本启动 R 实例并加载 ORE 库：

% ORE
> library(ORE)

应出现一系列 “Loading required package: ORExxx” 语句且无错误。
- 然后，以 OML_USER 身份连接到服务器，示例如下：

ore.connect(user="oml_user", sid="k19c", host="kaidb", password="oml_userpsw", port=1521, all=TRUE)

最后，执行一些基本函数：

# 检查 OML4R 客户端是否连接到 OML4R 服务器
ore.is.connected()
# 列出可用的数据库表
ore.ls()

如果连接成功， ore.is.connected() 函数返回 TRUE ；如果配置成功， ore.ls() 函数返回当前模式下的表列表。

2.2 在客户端验证 OML4R

由于客户端运行在 Linux 上，从命令提示符启动 R 并输入以下命令启动 OML4R：

> library(ORE)

同样应出现一系列 “Loading required package: ORExxx” 语句且无错误。
使用以下命令连接到 OML4R 服务器：

> ore.connect(user="OML_USER", sid="pdb1", host="kaidb", password="OML_USERpsw", port=1521, all=TRUE)

检查连接性：

> ore.is.connected()

列出 ore.frame 代理对象：

> ore.ls()

如果配置成功， ore.ls() 函数返回当前模式下的表列表。

3. 设置开源组件

机器学习管道示例由 OML 客户端、服务器和开源组件组成，这里重点介绍安装和配置 DVC 和 TFDV 等开源组件。

安装 TFDV：

pip install tensorflow - data - validation

安装 DVC：

pip install dvc

或者，如果想使用与示例环境相同版本的 DVC 和 TFDV 代码，可以跳过上述两个 pip install 命令，使用附带的 requirements.txt 文件运行 pip install -r 命令：

pip install -r requirements.txt

requirements.txt 文件内容如下（部分展示）：

absl - py==0.10.0
alembic==1.4.2
apache - beam==2.24.0
appdirs==1.4.4
appnope==0.1.0
...

4. 数据

任何机器学习管道都始于数据提取。本文使用鸢尾花数据集作为输入，该数据集是由英国统计学家和生物学家 Ronald Fisher 在 1963 年的经典论文中引入的多变量数据集。可以从 OML 数据库获取该数据集，也可以从 University of California School of Information and Computer Science Machine Learning Repository 下载。

数据集包含三种鸢尾花物种，每种有 50 个样本，数据包含关于每朵花的其他属性列。在示例中，将构建一个分类模型来预测花的物种。

5. 数据验证和模型监控实现

机器学习管道结合了开源包以实现自定义功能，本节介绍基于 TensorFlow Data Validation (TFDV) 包的数据验证和模型监控实现。

5.1 TensorFlow Data Validation (TFDV)

使用 pip install 设置开源组件后，可以导入 tensorflow_data_validation 模块。TFDV 可以根据任何 Pandas 数据框生成模式和统计信息，并通过将新数据框与现有数据框推断的模式和统计信息进行比较来检测异常。

以下是相关代码示例：

import numpy as np
import pandas as pd
import os
import tensorflow_data_validation as tfdv
from config import Config

Config.ANOMALIES_PATH.mkdir(parents=True, exist_ok=True)
Config.ORIGINAL_DATASET_FILE_PATH.parent.mkdir(parents=True, exist_ok=True)
Config.DATASET_PATH.mkdir(parents=True, exist_ok=True)

def generateSchema(input_file, schema_file):
    assets = pd.read_csv(input_file, low_memory=False)
    assets_stats = tfdv.generate_statistics_from_dataframe(assets)
    assets_schema = tfdv.infer_schema(assets_stats)
    tfdv.write_schema_text(assets_schema, schema_file)
    tfdv.display_schema(assets_schema)
    return tfdv.load_schema_text('assets_schema')

def getAnomalies(df, expected_df, anomalies_file):
    assets_stats = tfdv.generate_statistics_from_dataframe(df)
    assets_schema = tfdv.infer_schema(assets_stats)
    expected_assets_stats = tfdv.generate_statistics_from_dataframe(expected_df)
    expected_assets_schema = tfdv.infer_schema(expected_assets_stats)
    anomalies = tfdv.validate_statistics(assets_stats, expected_assets_schema)
    tfdv.write_anomalies_text(anomalies, anomalies_file)
    tfdv.display_anomalies(anomalies)
    return tfdv.load_anomalies_text('anomalies')

5.2 数据验证

数据验证在数据提取后立即进行，目的是确保输入数据符合预期模式。示例代码如下：

iris_df = pd.read_csv(str(Config.ORIGINAL_DATASET_FILE_PATH))
iris_drift_df = pd.read_csv(str(Config.ORIGINAL_DATASET_DRIFT_FILE_PATH))
getAnomalies(iris_drift_df, iris_df, str(Config.ANOMALIES_PATH / "anomalies_data_drift.json"))

原始鸢尾花数据集包含三个不同的标签：Iris - setosa、Iris - versicolor 和 Iris - virginica。为模拟数据的重大变化，故意将一个标签从 Iris - setosa 改为 Iris - setosaaaa。输出是 anomalies_data_drift.json 文件，数据验证过程会根据原始数据集生成基线模式，由于 iris_drift_df 数据框中的拼写错误，第四个值 Iris - setosaaaa 会在 anomaly_info 块中被标记为错误。

5.3 模型监控

模型监控可以在模型服务之前进行，目的是确保新数据与用于模型训练的数据相似。示例将鸢尾花数据集拆分为训练集和测试集，然后比较这两个数据集：

train_df = pd.read_csv(str(Config.DATASET_PATH / "train.csv"))
test_df = pd.read_csv(str(Config.DATASET_PATH / "test.csv"))

def extract_features(df):
    return df[["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]]

train_set = extract_features(train_df)
test_set = extract_features(test_df)
getAnomalies(train_set, test_set, str(Config.ANOMALIES_PATH / "anomalies_train_test.json"))

如果生成的 anomalies_train_test.json 文件中不包含 anomaly_info 块，则表示训练/测试数据没有漂移。

6. 跟踪和重现机器学习管道

TFDV 可以检测任何数据/特征/预测集的变化，但并非所有数据变化对模型的影响都相同。模型监控必须考虑数据以外的变化，例如源代码和训练参数的变化可能需要重新启动部分或整个机器学习管道。

6.1 数据版本控制 (DVC)

DVC 是一个开源的数据版本控制、工作流和实验管理软件（ https://dvc.org ），它基于 Git 仓库为数据和模型工件提供版本控制，使机器学习管道实验可重现。

机器学习管道由一系列阶段组成，通常从原始数据提取开始，接着是中间特征工程和模型训练阶段，生成训练好的模型和指标，并包括漂移监控。

从命令行界面 ( dvc run )，用户可以定义一个机器学习管道阶段。管道定义文件 ( dvc.yaml ) 可以包含以下字段：
| 字段 | 描述 |
| ---- | ---- |
| cmd | 此阶段要执行的命令 |
| wdir | 阶段命令运行的工作目录（相对于 dvc.yaml 文件的位置） |
| deps | 依赖文件或目录路径（相对于 wdir ） |
| params | 从文件（默认 params.yaml ）读取的参数依赖字段名称 |
| outs | 输出文件或目录路径（相对于 wdir ） |
| metrics | 指标文件 |
| plots | 绘图指标 |
| frozen | 此阶段是否从重现中冻结 |
| always_changed | 此阶段是否被 dvc status 和 dvc repro 等命令视为已更改，默认 false |

6.2 版本控制代码、数据和模型文件

机器学习管道的定义和状态存储在一对元文件 dvc.yaml 和 dvc.lock 中，这些元文件较小，会与源代码一起添加到 Git 仓库。大型文件和目录（如数据集、特征、参数、指标、模型和工件）使用 DVC 的内置缓存与各种远程存储同步。

6.3 实际机器学习管道演示

示例中的机器学习管道源代码入口点是一个 Python 项目 oml - pipeline ，管道在以下文件中实现数据科学步骤：
- pipeline/data_extraction.py
- pipeline/feature_engineering.py
- pipeline/model_training.py
- pipeline/model_evaluation.py
- pipeline/model_monitoring.py
- ore_client.R

在 model_training.py 和 model_evaluation.py 中，模型训练和评估通过 ore_client.R 脚本在 OML 中实现。

为了自动化模型重新训练，需要自定义依赖关系、更改跟踪，并最终确定何时以及如何重新启动机器学习管道。

6.4 ML 管道项目的 Git 和 DVC 初始化与配置

首先，切换到机器学习管道项目根目录并运行 Git 命令。然后，运行 dvc init 为项目初始化 DVC，使用 dvc remote add 指定默认 DVC 远程存储为本地目录，并使用 dvc config 关闭匿名使用统计信息（ core.analytics false ）。

生成的 DVC 配置会自动保存在管道项目下的 .dvc 目录中的 config 文件中。

6.5 使用 DVC 定义和记录依赖关系

在 DVC 中，一个阶段由要执行的命令、数据输入输出、相互依赖关系和结果描述。 dvc run 是创建和更新管道阶段的辅助命令，DVC 管道中的每个阶段都依赖于所有先前的阶段。机器学习管道的五个阶段如下：
1. Extract（数据提取）
2. Feature（特征工程）
3. Train（模型训练）
4. Evaluation（模型评估）
5. Monitor（模型监控）

初始执行 dvc run 命令行会在工作目录中自动生成一对阶段跟踪文件 dvc.yaml 和 dvc.lock 。为了使用 Git 跟踪阶段更改，运行：

git add dvc.yaml dvc.lock

每次后续调用 dvc run 后， dvc.yaml 和 dvc.lock 会更新以记录管道中的更改。

6.6 使用 DVC 跟踪和重现机器学习管道

一旦生成的 dvc.yaml 和 dvc.lock 文件添加到 Git 仓库，DVC 就会跟踪管道阶段的所有元素（输入输出、相互依赖关系、文件、目录、数据集、模型、指标等）的更改。从这一点开始，DVC 可以重现管道的任何版本。

使用 git commit 命令跟踪管道阶段的当前状态，使用 git tag -a 命令添加一个 rf - pipeline 标签来引用管道更改历史中的特定点。使用 dvc metrics show -T 命令显示模型评估指标。标记管道后，就建立了一个 “基线” 来跟踪未来的变化。

6.7 示例跟踪用例

典型的机器学习管道跟踪用例包括由输入数据变化引起的模型漂移和在管道实验期间切换算法。

数据集中的变化会被 DVC 检测到，因为该文件被指定为两个管道阶段（特征工程和模型监控）的依赖项。在模型训练代码中切换分类算法（如从随机森林回归切换到线性回归）时，由于模型训练代码（ model_training.py ）是训练阶段定义的一部分，DVC 在管道重现期间会标记算法的更改。

通过以上步骤，我们可以构建一个可重现的 Oracle 机器学习 R 语言管道，并实现数据验证、模型监控和实验跟踪等功能，确保机器学习实验的准确性和可重复性。

构建可重现的 Oracle 机器学习 R 语言管道

7. 总结与展望

在前面的内容中，我们详细介绍了如何构建一个可重现的 Oracle 机器学习 R 语言管道，涵盖了从环境搭建到具体功能实现的各个方面。下面我们通过一个 mermaid 流程图来回顾整个流程：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;

    A(设置 OML4R):::process --> B(验证 OML4R 安装):::process
    B --> C(设置开源组件):::process
    C --> D(数据提取):::process
    D --> E(数据验证):::process
    E --> F(模型训练):::process
    F --> G(模型监控):::process
    G --> H(实验跟踪):::process

这个流程图清晰地展示了构建管道的主要步骤，从最初的环境设置到最终的实验跟踪，每个步骤都紧密相连，共同构成了一个完整的机器学习管道。

通过使用 Oracle Machine Learning for R（OML4R）、TensorFlow Data Validation（TFDV）和 Data Version Control（DVC）等工具，我们实现了数据验证、模型监控和实验跟踪等重要功能。这些功能不仅有助于提高模型的准确性和稳定性，还能确保实验的可重复性，使得机器学习项目更加可靠和高效。

在数据验证方面，TFDV 能够检测输入数据中的模式和分布偏差，帮助我们及时发现数据中的异常情况，从而保证模型训练的质量。例如，在鸢尾花数据集的示例中，我们通过模拟数据变化，成功检测到了数据漂移，并生成了相应的异常报告。

模型监控则可以在模型服务之前对新数据进行检查，确保其与训练数据的相似性，避免因数据分布变化而导致的模型性能下降。通过比较训练集和测试集的数据，我们可以及时发现潜在的问题，并采取相应的措施进行调整。

而 DVC 作为一个强大的数据版本控制工具，为我们提供了对代码、数据和模型的版本管理功能。它允许我们定义和自定义机器学习管道的依赖关系，当数据或代码发生变化时，能够自动触发相应的阶段重新运行，从而实现实验的可重现性。

8. 未来发展方向

随着机器学习技术的不断发展，我们可以预见这个可重现的机器学习管道在未来还有很大的发展空间。以下是一些可能的发展方向：

集成更多的机器学习算法和工具 ：目前我们主要使用了 R 语言和 TensorFlow 相关的工具，未来可以考虑集成更多的机器学习算法和框架，如 PyTorch、Scikit-learn 等，以提供更丰富的模型选择。
自动化流程优化 ：虽然我们已经实现了一定程度的自动化，但仍然可以进一步优化流程，减少人工干预。例如，通过引入自动化的超参数调优、模型选择和特征工程等功能，提高管道的效率和性能。
与云服务的集成 ：将机器学习管道与云服务相结合，如 Amazon Web Services（AWS）、Google Cloud Platform（GCP）或 Microsoft Azure 等，可以利用云服务的强大计算资源和存储能力，实现大规模的机器学习训练和部署。
实时数据处理和监控 ：在实际应用中，很多场景需要对实时数据进行处理和监控。未来可以将管道扩展为支持实时数据的处理和分析，及时发现和处理数据中的异常情况。

9. 实践建议

为了帮助读者更好地应用上述知识，以下是一些实践建议：

深入理解工具和技术 ：在实际应用之前，建议读者深入学习 OML4R、TFDV 和 DVC 等工具的使用方法和原理，了解它们的优缺点和适用场景。可以通过阅读官方文档、参加培训课程或参考相关的教程来加深理解。
从小项目开始实践 ：可以先选择一个小型的机器学习项目进行实践，逐步熟悉整个管道的搭建和使用过程。在实践过程中，不断总结经验教训，逐步优化管道的性能和稳定性。
团队协作和知识共享 ：机器学习项目通常需要团队协作完成，建议团队成员之间加强沟通和协作，共享知识和经验。可以定期组织技术分享会和项目讨论，共同解决遇到的问题。
持续学习和跟进技术发展 ：机器学习领域发展迅速，新的算法、工具和技术不断涌现。建议读者保持学习的热情，持续关注行业动态，及时跟进技术发展，不断更新自己的知识体系。

10. 常见问题解答

在实际应用过程中，可能会遇到一些常见的问题，以下是一些常见问题的解答：

问题	解答
在安装 OML4R 时遇到依赖问题怎么办？	首先，确保你的操作系统和数据库版本符合要求。然后，检查所需的 R 包版本是否正确，可以尝试更新或重新安装相关的 R 包。如果问题仍然存在，可以参考官方文档或社区论坛，寻求帮助。
TFDV 检测到异常后如何处理？	当 TFDV 检测到异常时，需要仔细分析异常报告，确定异常的原因。如果是数据质量问题，可以对数据进行清洗和预处理；如果是模型问题，可以调整模型参数或更换模型。
DVC 如何处理大型数据集？	DVC 支持与各种远程存储（如 Amazon S3、Google Cloud Storage 等）集成，可以将大型数据集存储在远程存储中，并通过 DVC 进行版本控制。在使用时，DVC 可以根据需要自动下载所需的数据。
如何确保管道的安全性？	为了确保管道的安全性，需要采取一系列措施，如对数据进行加密处理、设置访问权限、定期备份数据等。同时，要注意防范网络攻击和数据泄露等安全风险。

通过以上的总结、展望、实践建议和常见问题解答，我们希望能够帮助读者更好地理解和应用可重现的 Oracle 机器学习 R 语言管道。在实际应用中，读者可以根据自己的需求和场景进行适当的调整和优化，不断提升机器学习项目的质量和效率。