21、Spark SQL、DataFrames与分布式机器学习MLlib实战-优快云博客

本文链接：https://blog.youkuaiyun.com/brandy/article/details/155724905

Spark SQL、DataFrames与分布式机器学习MLlib实战

1. Spark SQL和DataFrames基础

Spark SQL和DataFrames为处理结构化数据提供了强大的工具。DataFrames是一种分布式的数据集合，类似于关系型数据库中的表，它提供了丰富的操作和功能。

1.1 连接类型

Spark支持多种连接类型，包括内连接（inner）、外连接（outer）、左外连接（leftouter）、右外连接（rightouter）和左半连接（leftsemi）。左半连接与内连接类似，但连接后只保留左表的列，可用于过滤一个DataFrame中存在于另一个DataFrame的行。

1.2 用户自定义函数（UDF）

虽然内置函数通常能满足需求，但有时需要更大的灵活性。Spark允许通过用户自定义函数（UDF）对DataFrame的每一行应用自定义转换。

例如，根据身高和体重判断一个人是否更可能是男性。首先定义一个Scala函数：

scala> def likelyMale(height:Int, weight:Int):Boolean = {
  val rescaledHeight = (height - 171.0)/8.95
  val rescaledWeight = (weight - 65.7)/13.4
  -0.75 + 2.48*rescaledHeight + 2.23*rescaledWeight > 0
}

然后将其注册为UDF：