spark&scala集合

最新推荐文章于 2025-06-26 16:42:28 发布

原创最新推荐文章于 2025-06-26 16:42:28 发布 · 385 阅读

0 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

11 篇文章

订阅专栏

本帖重点关注scala以及兼容到spark平台上的数据集合，包括

Iterator

Seq

Array

Set

List

Tuple

RDD

DStream

1.  Iterator 慎用

此类型循环事特别注意，由于就是follow Iterator的概念，所以遍历一次后，往往再遍历就为空Iterator了，例如：

val mydata = Source.fromFile(".....").getLines()
val MyRating = mydata.map{line=>  val record = line.split("::")  (record(0),record(1),record(2),record(3)) match {case (user,product,rate,timestamp)=>   Rating(user.toInt,product.toInt,rate.toDouble)  }}

此时MyRating的类型是Iterator，只要遍历后Iterator就为空了，不能再访问到数据

办法是可以转换为多种类型，toSeq 没问题

2. 转(k,v)类型的，多用于join操作

val movieData = Source.fromFile("/tmp/aaa/machine-learning/movielens/medium/movies.dat","ISO-8859-15").getLines()
val movieList = movieData.map{ line=>
  val record = line.split("::")
  (record(0).toInt,record(1))
}.toMap