开发环境
本人是用hadoop集群+pyspark 2.4.0进行开发。driver端使用的是docker。
在pyspark 2.4.0里并没有集成孤立森林算法,需要单独配置。
本文不讲孤立森林算法的原理,只是描述下配置的流程。
配置流程
1. 在driver端按照github: https://github.com/titicaca/spark-iforest里提示的两部进行操作
安装maven, 参考:https://blog.youkuaiyun.com/qq_29695701/article/details/90705181
note, maven的安装包更新为:
2. 集群端的master和worker里也要安装jar包。
8e0b、e83a、d3d1分别是几个worker的容器号。


本文介绍在Hadoop集群和Pyspark2.4.0环境下,如何配置并使用孤立森林算法。主要步骤包括在driver端使用Docker安装Maven,并通过指定GitHub仓库进行配置,同时在集群端的master和worker节点上安装必要的jar包。
989

被折叠的 条评论
为什么被折叠?



