PythonNote031---python和hdfs的交互

最新推荐文章于 2021-08-29 21:00:58 发布

维格堂406小队

最新推荐文章于 2021-08-29 21:00:58 发布

阅读量301

点赞数

分类专栏： ★★★Python # ★★Python基础

本文链接：https://blog.youkuaiyun.com/wendaomudong_l2d4/article/details/119913651

版权

★★★Python 同时被 2 个专栏收录

72 篇文章

订阅专栏

★★Python基础

42 篇文章

订阅专栏

目的

有些简单的模型，希望直接python训练完模型，放在hdfs上，预测时，scala或者sql做特征，再用python进行预测，预测结果插入hive表。那么就涉及到如何加载hdfs的模型，遇到了些坑，只给出目前的解决方案，不求甚解~

方法

连接hdfs的python库有多个，用下来，hdfs安装相对方便，使用尚能满足
持久化模型也有多种方法，pickle、joblib、pmml，joblib加载模型报错，暂时没找到解决方案，pickle可用

from hdfs import InsecureClient
root_path = "/user/hive"
# hadoop3.x版本端口号用9870
client_hdfs  = InsecureClient(url="ip:port",root=root_path)

import pickle
with client_hdfs.write('/user/hive/dt_model.pickle',overwrite=True) as writer:
    # 模型保存
    pickle.dump(dt_model, writer)

with client_hdfs.read('/user/hive/dt_model.pickle') as reader:
    load_model =pickle.load(reader)
    reader.close()

代码就这些

Ref

[1] https://pypi.org/project/hdfs/2.1.0/

2021-08-25 于南京市江宁区九龙湖

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

维格堂406小队

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

[Spark版本更新]--Spark-2.4.0 发布说明

欢迎来到我的博客，一起探索代码里的世界！

11-09

6861

2018-11-02 Apache Spark 官方发布了 2.4.0版本，以下是 Release Notes，供参考： Sub-task [ SPARK-6236 ] - 支持大于2G的缓存块 [ SPARK-6237 ] - 支持上传块> 2GB作为流 [ SPARK-10884 ] - 支持针对回归和分类相关模型的单实例预测 [ SPARK-11239 ] - 用于ML线性...

[Spark版本升级]-- spark-2.2.0发行说明

欢迎来到我的博客，一起探索代码里的世界！

07-18

6741

Spark-2.2.0版本发行时间：2017-7-11 一、Jira说明： https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12338275 子任务 [ SPARK-1267 ] - 添加PySpark的pip安装程序 [ SPARK-3249 ] - ...

参与评论您还未登录，请先登录后发表或查看评论

python对Hadoop的hdfs的操作——-pyhdfs或python调用shell文件

qq_29979341的博客

08-11

8637

python对Hadoop的hdfs的操作——-pyhdfs或python调用shell文件本人在写基因组里的序列比对算法时，需要用Hadoop加快运算的速度，在java中可以直接调用Hadoop里面API提供的方法对hdfs操作，然而由于本人是用python写的算法，需要借助pyhdfs或python调用shell文件来对hdfs来进行操作。一、pyhdfs操作hdfs下面本人都详细介绍pyhdf

python与Hadoop的交互

ILovePythonhao的博客

05-14

475

import pyhdfs fs = pyhdfs.HdfsClient(hosts='192.168.1.105,50070',user_name='hao') fs.get_home_directory()#返回这个用户的根目录 fs.get_active_namenode()#返回可用的namenode节点 fs.mkdirs('/wenjian') #新建文件 fs.copy_from_local('c.txt','/jiqunwenjian/',) #上传本地文件到HDFS集群 fs.copy_

python 操作 Hadoop hdfs

04-02

python 操作 Hadoop hdfs 读read 写write 下载download

hdfs基本命令与python编程

q1370992706的博客

03-16

770

hdfs基本命令与python编程为了使用Hadoop进行大量数据的分析，需要使用hdfs将文件导入进行分布式的存储，加速分析的速度。因此，需要首先了解hdfs的基本用法，了解如何导入本地数据，为后续的数据分析打下基础。这篇博客介绍hdfs的基本命令、基于python批量导入数据的方法等。【注意】所有的命令都需要首先切换到hdfs用户，使用下面的命令 sudo su #切换到ro...

python pyspark-submit 保存模型到hdfs（全网之最）

WGS.

06-30

3212

文章目录

Hadoop 1.x：体系结构，主要组件以及HDFS和MapReduce的工作方式

从零开始的教程世界

07-09

1187

Before reading this post, please go through my previous post at “Introduction to Hadoop” to get some Apache Hadoop Basics. 在阅读这篇文章之前，请仔细阅读我在Hadoop简介上的文章，以获取一些Apache Hadoop基础知识。 In this post, we are g...

Spark 源码阅读 02：从 Spark-Submit 到 Driver 启动

weixin_43851569的博客

08-29

339

Spark 版本：3.0.0 找到入口理解一个项目最好的切入点就是找到一个入口。比如跟 Spark 的交互方式，如何把任务提交到 Spark 集群。通常使用 spark-submit 脚本来提交任务。它在 Spark 源码的 bin 目录下 bin文件夹中在存放了 spark-shell 等其他入口方式。我们来看一下 spark-submit 的具体内容。可以看到是一个shell脚本，加载的类是 org.apache.spark.deploy.SparkSubmit。 $@ 把执行的参数

Spark学习—— (4) 基本使用（Python）

机器学习，大数据

04-26

1289

Spark支持Java、Python、Scala、R语法，可以通过spark-shell（Scala）或pyspark（Python）进行交互式的操作，也可以用spark-submit提交用Java、Python、Scala编写的应用。为了学习Spark的使用，本文不涉及原理，仅仅介绍Spark中Python的基本使用，为之后学习Spark的使用打下基础。本文使用部分全部来自官方参考文档Qui...

使用python操作hdfs

Crazy博客

12-26

4812

Python读取hdf文件——pyhdf

XerCis的博客

10-10

2万+

pyhdf 是 HDF4 的 Python 接口，用于操作 HDF 文件，如 SD (scientific dataset)、VS (Vdata)、V (Vgroup)。

Python对HDFS的操作(一)

ahilll的博客

10-25

3557

HDFS hdfs的定义: 　　Hadoop的分布式文件系统（HDFS）被设计成适合运行通用硬件上的分布式文件系统，它和现有的分布式文件系统有很多的共同点。但同时，它和其它的分布式文件系统的区别也是很明显的，hdfs是一个高容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上使用。HDFS放宽了一部分POSIX(https://baike.baidu.co...

hdfs基本操作-python接口

sym的博客

09-29

6308

hdfs操作手册 hdfscli 命令行 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

关于python使用hadoop（使用python操作hdfs）