005 Spark快速入门的简单程序案例

weixin_33912638

于 2017-02-05 22:41:00 发布

阅读量91

点赞数

文章标签：大数据 shell

本文介绍如何使用Apache Spark进行基本操作，包括上传文件到HDFS、读取文件并进行简单处理等。通过具体示例，展示如何利用Spark进行数据计数及筛选包含特定字符串的数据行。

　　参考：官网的quick start

　　http://spark.apache.org/docs/1.6.0/quick-start.html

　　这里只是在shell命令行中简单的书写一些命令，做一个简单的程序验证，使用一下spark。

1.上传文件README

　　

2.小程序

　　textFile默认路径是HDFS上的路径，除非给特定的schema。

　　前提是集成HDFS。

　　val textFile=sc.textFile("README.md")

　　textFile.count()

　　

3.继续

　　textFile.first()

　　

4.继续

　　val lineWithSpark=textFile.filter(line=>line.contains("spark"))

　　lineWithSpark.count()

　　

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。