自定义UDF完成稀疏矩阵在Pyspark和Java的交互运算
目录背景具体步骤1. 数据准备2.自定义UDF2.1 添加依赖2.2 参数格式要求2.3 完整Java代码3. 上传jar文件4. 在pyspark中调用UDF
背景
最近有个项目需求,要根据hive表内存储的稀疏矩阵数据,提取一些算法的运算结果。分布式的工具自然选择pyspark了,毕竟对python很熟,但是算法的代码是Java写的,只能自己将其打包为UDF在pyspark调用了,所以就研究了...
原创
2019-05-22 15:16:26 ·
676 阅读 ·
1 评论