Spark数据处理与垃圾邮件过滤实战
1. 键值对RDD的常见连接操作
在处理键值对RDD时,Spark提供了多种连接操作,下面列出了一些常见的连接操作及其结果示例:
| 转换操作 | 结果(假设rdd1为 { quick -> 1, brown -> 2, quick -> 3, dog -> 4 },rdd2为 { quick -> 78, brown -> 79, fox -> 80 }) |
| — | — |
| rdd1.join(rdd2) | { quick -> (1, 78), quick -> (3, 78), brown -> (2, 79) } |
| rdd1.leftOuterJoin(rdd2) | { dog -> (4, None), quick -> (1, Some(78)), quick -> (3, Some(78)), brown -> (2, Some(79)) } |
| rdd1.rightOuterJoin(rdd2) | { quick -> (Some(1), 78), quick -> (Some(3), 78), brown -> (Some(2), 79), fox -> (None, 80) } |
| rdd1.fullOuterJoin(rdd2) | { dog -> (Some(4), None), quick -> (Some(1), Some(78)), quick -> (Some(3), Some(78)), brown -> (Some(2), S
Spark实现垃圾邮件过滤
超级会员免费看
订阅专栏 解锁全文
1647

被折叠的 条评论
为什么被折叠?



