python模型保存与恢复 pmml_Spark之导出PMML文件（Python）

最新推荐文章于 2025-05-18 13:17:02 发布

最新推荐文章于 2025-05-18 13:17:02 发布 · 956 阅读

·

0

·

文章标签：

#python模型保存与恢复 pmml

本文介绍如何使用Python在Spark环境中导出PMML文件，包括环境搭建步骤与逻辑回归模型的PMML文件导出实例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PMML，全称预言模型标记语言(Predictive Model Markup Language)，利用XML描述和存储数据挖掘模型，是一个已经被W3C所接受的标准。PMML是一种基于XML的语言，用来定义预言模型。详细的介绍可以参考：http://dmg.org/pmml/v4-3/GeneralStructure.html。

本文将介绍如何在Spark中导出PMML文件(Python语言)。

首先我们需要安装jpmml-sparkml-package。具体的安装细节可以参考：https://github.com/jpmml/jpmml-sparkml-package。

1.利用Git下载JPMML-SparkML-Package project

git init

git clone https://github.com/jpmml/jpmml-sparkml-package.git

cd jpmml-sparkml-package

如下图所示：

Git下载JPMML-SparkML-Package

2.生成uber-JAR文件

将Spark的Python路径添加到环境变量

sudo gedit /etc/profile

export PYTHONPATH=$PYTHONPATH:$SPARK_HOME/python

source /etc/profile

再生成uber-JAR文件

mvn -Ppyspark -Dpython.exe=/usr/bin/python3.5 clean package

注意这里的python路径要是你自己的系统里的Python路径。耐心等待运行，运行结果如下：

生成uber-JAR文件

这时jpmml-sparkml-package文件夹下会多出target文件夹，如下：

target文件夹

3.将上述的jpmml_sparkml-1.3rc0-py3.5.egg文件添加到Eclipse的Pydev的libraries中，如下图：

在Eclipse设置libraries

并且将上述的两个jar包复制到spark安装目录下的jars文件夹下。

复制jar包

这样我们就完成了所有的环境配置。接下来我们进行测试：

首先，我们需要数据……数据文件test_data.csv截图如下(部分)：

test_data.csv截图(部分)

完整的数据集可在http://archive.ics.uci.edu/ml/datasets/Wholesale+customers找到。

在Eclipse中新建test_PMML项目，如下图：

test_PMML项目

其中test_pmml.py的python代码如下：

from pyspark import SparkContext

from pyspark.sql import SparkSession

from pyspark.ml import Pipeline

from pyspark.ml.classification import LogisticRegression

from pyspark.ml.feature import RFormula

from jpmml_sparkml import toPMMLBytes

sc = SparkContext.getOrCreate()

spark = SparkSession.builder.appName("PMML Predict").config("spark.some.config.option", "some-value").getOrCreate()

print("Read file from /home/vagrant/......")

df = spark.read.csv("/home/vagrant/test_data.csv", header = True, inferSchema = True)

print("Reading complete.\n")

print("Processing logistic model......")

formula = RFormula(formula = "target ~ .")

logit = LogisticRegression()

pipeline = Pipeline(stages = [formula, logit])

pipelineModel = pipeline.fit(df)

print("Modeling complete.\n")

print("Exporting pmml file......")

pmmlBytes = toPMMLBytes(sc, df, pipelineModel)

output_rdd = sc.parallelize([pmmlBytes])

output_rdd.saveAsTextFile("pmml_Logit")

print("Export complete.\nThe end.")

运行结果如下：

Python运行结果

同时会生成pmml_Logit文件夹，里面包含PMML文件part-00000，内容如下图(部分)：

这生成的PMML文件(部分)

这样我们就成功地导出了逻辑回归模型的PMML文件！本次分享就到这儿啦~~

参考文献：

1.PMML介绍：http://dmg.org/pmml/v4-3/GeneralStructure.html

2.测试数据集：http://archive.ics.uci.edu/ml/machine-learning-databases/00292/

3.https://stackoverflow.com/questions/39888728/export-models-as-pmml-using-pyspark/39902676#39902676

4.https://github.com/jpmml/jpmml-sparkml-package

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。