Spark SQL 高效查询指南
1. 数据连接操作
在处理数据时,我们常常会遇到需要将两个 DataFrame 进行连接的情况,使得结果 DataFrame 包含两个原始 DataFrame 中具有共同值的行。连接操作的步骤如下:
1. 调用 join 函数 :在调用 join 函数时,需要提供要连接的 DataFrame 以及一个或多个列名,或者一个列定义。
2. 列名要求 :如果使用列名,这些列名必须同时存在于两个 DataFrame 中;若不存在,则可以使用列定义。
3. 指定连接类型 :使用列定义时,还可以传递第三个参数来指定连接类型,如 inner (内连接)、 outer (外连接)、 left_outer (左外连接)、 right_outer (右外连接)或 leftsemi (左半连接)。
以下是一个示例代码,展示了如何进行内连接和外连接:
// 内连接
val postsVotes = postsDf.join(votesDf, postsDf("id") === 'postId)
// 外连接
val postsVotesOuter = postsDf.join(votesDf, postsDf("id") === 'postId, "outer")
超级会员免费看
订阅专栏 解锁全文
1107

被折叠的 条评论
为什么被折叠?



