在spark中map函数和flatMap函数是两个比较常用的函数。其中
map:对集合中每个元素进行操作。
flatMap:对集合中每个元素进行操作然后再扁平化。
理解扁平化可以举个简单例子
- 1
- 2
输出结果为
- 1
- 2
- 3
- 4
- 5
- 6
如果用map
- 1
- 2
输出结果
- 1
- 2
- 3
所以flatMap扁平化意思大概就是先用了一次map之后对全部数据再一次map。
实际使用场景
有一个场景,在字符串中如何统计相邻字符对出现的次数。意思就是如果有A;B;C;D;B;C字符串,则(A,B),(C,D),(D,B)相邻字符对出现一次,(B,C)出现两次。
如有数据
- 1
- 2
- 3
统计相邻字符对出现次数代码如下
- 1
- 2
- 3
输出结果为
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
此例子就是充分运用了flatMap的扁平化功能。