spark-shell示例

本文提供了一个使用Spark Shell操作数据的示例,包括从本地文件和HDFS读取数据。通过`sc.textFile()`方法,可以使用通配符加载多个文件或目录。例如,读取按日期和小时分区的HDFS数据,可以使用模糊匹配如`hr=*`来获取指定日期下所有小时的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scala 行数统计

命令及结果示例


# spark-shell
scala> val lines  = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24


scala> lines.count()
res0: Long = 99


scala> lines.first()

res1: String = # Apache Spark


其中 README.md 默认是spark安装路径bin/下的README.md文件,多种读取方式,

1、本地文件:val lines =sc.textFile("file:///root/bus_info.txt")

还可以通过通配符的形式加载多个文件或者加载多个目录下面的所有文件

假设我的数据结构为先按天分区,再按小时分区的,在hdfs上的目录结构类似于:

/user/hdfs/input/dt=20130728/hr=00/

/user/hdfs/input/dt=20130728/hr=01/

...

/user/hdfs/input/dt=20130728/hr=23/

具体的数据都在hr等于某个时间的目录下面,现在我们要分析20130728这一天的数据,我们就必须把这个目录下面的所有hr=*的子目录下面的数据全部装载进RDD,于是我们可以这样写:sc.textFile("hdfs://n1:8020/user/hdfs/input/dt=20130728/hr=*/"),注意到hr=*,是一个模糊匹配的方式。


2、hdfs文件中读取:val lines2 =sc.textFile("hdfs://localhost:8082/user/spark/bus_info.txt")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值