文章大纲 扩展spark 的归一化函数思路简介 注意事项 spark 私有函数的使用 org.apache.spark.mllib.linalg.Vector.asBreeze 的使用 org.apache.spark.sql 的 withColumns 定义数据结构 调用方式与结果 自定义模型训练函数 fit 自定义转换 transform 其他需要重写的函数 参考文献 扩展spark 的归一化函数思路简介 以Logistic 归一化为例,整体思路就是: 首先计算公式中需要用到的值,比如mean 将计算后的值封装在vector 中,针对需要计算的列依次使用math 函数进行计算 在withColumn 中使用udf 进行计算 为什么要计算mean 呢, Logistic 标准化函数如下 x = L 1 + e − k ( x − x 0 ) x=\frac L{1+e^{-k\left(x-x_0\right)}} x=