Apache Spark是一个快速的通用集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持常规执行图的优化引擎。
官网文献:http://spark.apache.org/docs/2.0.0/programming-guide.html
进入spark
spark-shell
读取hdfs文件
scala> val textFile = sc.textFile("README.md") 路径/user/root/README.md
查看文件有写了几次
scala> textFile.count()
查看第一次写入的数据
scala> textFile.first()