打开spark-shell,输入下面代码(注意“yourPATHinHDFS”这里换成自己文件的路径)
val textFile = sc.textFile("hdfs://localhost:9000/yourPATHinHDFS/test.txt")
因为我的是json数据,就可以通过下面这条命令显示
textFile.collect

实现计数,一共有多少行
textFile.count()
打印第一行
textFile.first()
本文介绍了如何使用Spark Shell加载HDFS中的JSON数据,演示了文本文件的行数计数、第一行获取以及数据处理的基本步骤。
打开spark-shell,输入下面代码(注意“yourPATHinHDFS”这里换成自己文件的路径)
val textFile = sc.textFile("hdfs://localhost:9000/yourPATHinHDFS/test.txt")
因为我的是json数据,就可以通过下面这条命令显示
textFile.collect

实现计数,一共有多少行
textFile.count()
打印第一行
textFile.first()
4068
1268

被折叠的 条评论
为什么被折叠?