Spark LDA 主题预测

本文主要对使用Spark MLlib LDA进行主题预测时遇到的工程问题做一总结,列出其中的一些小坑,或可供读者借鉴。关于LDA模型训练可以参考:Spark LDA 主题抽取

开发环境:spark-1.5.2,hadoop-2.6.0,spark-1.5.2要求jdk7+。语料有大概70万篇博客,十亿+词汇量,词典大概有五万左右的词。

模型准备

利用spark mllib LDA进行主题预测需要训练好的LDAModel以及词典,注意词典需要是训练LDAModel时所对应的词典,索引与词需要一一对应。使用时只需LocalLDAModel.load(sc, trained_model)即可。

预测代码

注意,此处是将SparkContext嵌入一个独立的java程序中使用(on windows),而不是直接spark-submit。

// 加载模型
System.setProperty("hadoop.home.dir", hadoop_home_dir);
val conf = new SparkConf().
                      setAppName("Spark LDA Model").
                      setMaster(spark_master).
                      setJars(Array("target/xxx.jar")).
                      set("spark.driver.maxResultSize", "8g").
                      set("spark.executor.memory", "16g")
sc = new SparkContext(conf)
ldaModel = LocalLDAMode
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值