eclipse编写scala应用运行在spark集群上

本文介绍了一个使用Apache Spark来统计HDFS中文件内特定关键词出现次数的示例程序。该程序首先初始化Spark环境,并从指定的HDFS路径加载数据,接着过滤出含有关键词yao的行,并计算其总数。

代码

package spark_1
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
class WorkCountTest {
//自定义函数 def jiSuan(){ //数据文件路径
var loadFile="hdfs://服务器ip:8020/tmp/dataTest/Z";
  //初始化sparkContext
var conf=new SparkConf(); conf.setAppName("workCountZhangxs"); conf.setMaster("spark://服务器ip:7077") var sc=new SparkContext(conf);
//从hdfs上读取文件
var fileRdd=sc.textFile(loadFile, 2);
//过滤出包含执行的字符("yao")
var countRdd=fileRdd.filter(line=>line.contains("yao"));
//计算出count
var countF=countRdd.count(); println(countF) sc.stop(); } } object mainA{ def main(args: Array[String]) {
  //初始化类
var t=new WorkCountTest();
  //调用计算函数 t.jiSuan(); } }

输出结果

转载于:https://www.cnblogs.com/zhangXingSheng/p/6512405.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值