系列文章:
- pyspark 原理、源码解析与优劣势分析(1) ---- 架构与java接口
- pyspark 原理、源码解析与优劣势分析(2) ---- Executor 端进程间通信和序列化
- pyspark 原理、源码解析与优劣势分析(3) ---- 优劣势总结
基本AI 算法与pyspark 解决方案对应
pyspark 算子与基本AI 算法核对,基本覆盖99% 机器学习的建模流程,对应大多数应用场景
pyspark cover 99% 的内容,其余的功能可以在微软开源的 mml spark 中找到【安装难度大】,结合TensorFlow on spark 【效率低】深度学习也包含了。
没有cover 的是以下两个常用内容:
- 线性模型特征重要性
- 洛伦兹曲线
对于如异常检测中使用到的孤立森林等算法,考虑可使用sklearn与spark 结合。编写udf 在每一个Executor 上 进行单独