Spark实例分析1

本文介绍使用Spark对日志文件中的IP地址进行提取与去重处理的方法。通过读取本地日志文件,利用flatMap、map等操作实现对IP地址的提取,并使用distinct()方法去除重复项,最后将结果保存到指定目录。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

取访问日志log的ip并去重

val sc = new SparkContext("local","Simple App","/opt/spark/spark-0.9.0-incubating")
val temp  = sc.textFile("F:\\log.txt").flatMap(line=>line.split("\\n")).map(cloumn => cloumn.split("\\^")(0))
.filter(word=>null!=word && !word.equals("")).map(word=>word+"&").distinct()
println(temp.count)
println(temp.take(0))
temp.saveAsTextFile("F:\\result")



结果输出:
127.0.0.1&
27.151.207.85&
127.0.2.1&

测试文件:log.txt

27.151.207.85^asdf^gfsd^1fsd
127.0.0.1^sadf^adf^asdf
127.0.0.1^sadf^adf^asdf

127.0.0.1^sadf^adf^asdf

127.0.2.1^sadf^adf^asdf




转载于:https://my.oschina.net/hanzhankang/blog/204889

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值