Spark ML Lib中的Tf-Idf生成的向量不能直接用于其他算法的问题
Spark ML Lib中提供了文档转为Tf-Idf加权的向量的功能,但是Tf是用的Hash方式将token进行映射,并且向量直接存储出来的格式并不能直接用于SVM、Naive Bayes等算法,因此需要做一些其它工作:
1.调整向量格式
生成TF部分代码不做改变
JavaRDD text = sc.textFile(inputPath);
JavaPairRDD> document
原创
2016-04-14 18:19:21 ·
1576 阅读 ·
0 评论