Java版的Spark大数据中文分词统计程序完成之后,又经过一周的努力,把Scala版的Spark
大数据中文分词统计程序也搞出来了,在此分享给各位想学习Spark的朋友。
如下是程序最终运行的界面截图,和Java版差别不大:
如下是Scala工程结构:
当你在工程主类文件WordCounter.scala上单击右键,选择Run As Scala Application:
然后选择唐诗宋词进行分词统计,就会出现前面显示的分词结果。
工程代码已经上传优快云:http://download.youkuaiyun.com/detail/yangdanbo1975/9608632。
整个工程结构很简单,Text包中和Java工程中一样,包含了内置的文本文件。整个工程引用的类库和Java工程类似,只是多了Scala的内容。
需要注意的是,由于Scala版本的不同, Scala缺省引用的类库也有所不同,例如当选择Eclipse自带的Scala 2.10.6版本时,swing类库是自动引
入的,如下图所示:
可是,如果你选择不同的Scala版本,比如最新下载安装的2.1.18版,swing类库就得自己手动加载了:
你可以在工程属性的Java Build Path -> Scala Library Container 中Edit Library,来切换Scala Library的版本:
整个工程总共包括GuiUtils.scala,SparkWordCount.scala,TextPane.scala和WordCounter.scala四个Scala类和JavaUtil.java一个Java类。
GuiUtils.scala完全复制自网上代码,实现了类似 于Java Swing中OptionPanel的message 提示框的功能。
<