说明:
因为后期要做基于spark的项目,本人懒得纯手打了,决定在别的项目基础上修改过来即可。
项目中要用到spark-ml的word2vec生成词向量,于是直接借用之前的手机短信项目的前半截了。
代码不贴了,写下心得:

利用spark-mllib库现成的word2vec轻轻松松几句代码就实现了。得到的词向量等内容存储在preResultDF中,我想看下生成的词向量什么样。
1、saveAsTestFile()
百度告诉我用这个输出就能看了,结果我写了preResultDF.saveAsTestFile()报错:Cannot Resolve Symbol saveAsTestFile
我百度解决方案,度娘告诉我maven有个通用解决方式,随便百度了个:https://blog.youkuaiyun.com/qq_17312239/article/details/80279413
可是对我没半点用,哭了。(我百度了别人写的saveAsTestFile是可运行的,说明我代码写的不对)
2、强行运行,看IDEA能不能多给点提示
本以为 preResultDF是个rdd,尝试使用rdd.saveAsTestFile()结果报错Error:(64, 17) value saveAsTextFile is not a member of org.apache.spark.sql.dataFrame
然后一想这跟spark-sql的dataFrame有啥关系。。
意识到

本文记录了使用Spark MLlib的Word2Vec生成词向量并将其存储在DataFrame中的过程,遇到的`saveAsTestFile()`方法无法使用的问题,以及DataFrame与RDD之间的转换。在解决问题的过程中,尝试了各种方法,最终通过将DataFrame转换为RDD成功输出了词向量。
最低0.47元/天 解锁文章
6601

被折叠的 条评论
为什么被折叠?



