文章大纲 扩展spark 原始的算法 放置位置 算法对应 整体流程 参考文献 基于PySpark2.x or 3.0 进行机器学习系列 扩展spark 原始的算法 比如,我们使用 列选择等一些内容时候,使用select 或者 randomsplit 想把他们加入到 pipeline 中取,因为这些方法不是transform ,那么我们可以对其进行扩展,如: class FillNullSmartFap(override val uid: String) extends Transformer with DefaultParamsWritable { } 放置位置 项目算法的放置位置如下图所示