在pyspark中调用scala代码
情境说明
问题
我们这边是要使用Spark去并行一个自然语言处理的算法,其中使用到了LDA主题模型。由于使用的是天河二号,Spark版本是1.5.1,pyspark同样,所以获取主题时还不能使用describeTopics(在spark1.6中才开放对python的接口),只能使用topicsMatrix的方法。
本来凑合用topicsMatrix也行,但我们发现,这一个用来获取主题模型的函数,居然比Lda的训练还要慢!无论在我们自己的集群还是在天河二号的分区上,都是这一个情况。观察topicsMatrix的源代码,好像也没有什么复杂操作,只是把数据汇总collect而已:
@Since("1.3.0")
override lazy val topicsMatrix: Matrix = {
// Collect row-major topics
val termTopicCounts: Array[(Int, TopicCounts)] =
graph.vertices.filter(_._1 < 0).map { case (termIndex, cnts) =>
(index2term(termIndex), cnts)}.collect()
// Convert to Matrix
val brzTopics = BDM.zeros[Double](vocabSize, k)
termTopicCounts.foreach { case (term, cnts) =>
var j = 0
while (j < k) {
brzTopics(term, j) = cnts(j)
j += 1
}
}
Matrices.fromBreeze(brzTopics)
}
由于并不是算法中有一些复杂运算导致较慢,我们自然不希

本文介绍了如何在PySpark环境下,针对Spark 1.5.1版本,调用Scala实现的LDA模型的describeTopics方法来解决Python接口未开放的问题。通过分析源代码,发现LdaModelWrapper类在1.6版本中解决了转换问题。文章详细阐述了打包Scala代码为jar文件的过程,并展示了如何在Python中通过SparkContext._jvm调用Scala方法。
最低0.47元/天 解锁文章
2599

被折叠的 条评论
为什么被折叠?



