1.打开 Linux 终端窗体,输入 spark-shell 命令启动 SparkShell 交互式编程环境。启 动过程中可能会出现一个 NumberFormatException 的异常信息,这个问题不影响使用。
2.Spark 是用 Scala 语言开发的,当 SparkShell 启动后就支持运行 Scala 代码。我们 先输入下面两行简单的 Scala 代码(不理解也没关系 ps:正常的话,运行完毕就会打印输出 hello.txt 文件中的内容,说明 Spark 可以正常读取 本地磁盘的文件)
3.再新开一个 Linux 终端,在里面输入 jps 命令查看 HDFS 服务是否在运行,如果没有 运行就要先将 HDFS 服务启动,正如在配置 HDFS 服务时所做的那样。(如果 jps命令输出的进程名中不包含 HDFS 服务的三个程序,说明HDFS 服务没有运行(比 如可能重启过虚拟机),要使用 start-dfs.sh 命令将其启动)
4.现在可以验证 Spark 能否正常访问 HDFS 上的文件。前面测试 HDFS 时已经上传过一 个文件,路径为:/mydata/hello.txt,下面准备测试在 SparkShell 中读取这个文件。请转 至运行 SparkShell 的终端窗体。
5.通过上述的测试,说明 Spark 的安装配置是正确的。要退出 SparkShell 交互编程环 境,可以按下键盘上的 Ctrl+D 快捷键,或输入“:quit”并回车(冒号输入也包含在内)。