PythonNote031---python和hdfs的交互

目的

  有些简单的模型,希望直接python训练完模型,放在hdfs上,预测时,scala或者sql做特征,再用python进行预测,预测结果插入hive表。那么就涉及到如何加载hdfs的模型,遇到了些坑,只给出目前的解决方案,不求甚解~

方法

  • 连接hdfs的python库有多个,用下来,hdfs安装相对方便,使用尚能满足
  • 持久化模型也有多种方法,pickle、joblib、pmml,joblib加载模型报错,暂时没找到解决方案,pickle可用
from hdfs import InsecureClient
root_path = "/user/hive"
# hadoop3.x版本端口号用9870
client_hdfs  = InsecureClient(url="ip:port",root=root_path)
import pickle
with client_hdfs.write('/user/hive/dt_model.pickle',overwrite=True) as writer:
    # 模型保存
    pickle.dump(dt_model, writer)
with client_hdfs.read('/user/hive/dt_model.pickle') as reader:
    load_model =pickle.load(reader)
    reader.close()

代码就这些

Ref

[1] https://pypi.org/project/hdfs/2.1.0/

                                2021-08-25 于南京市江宁区九龙湖

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值