32. 如何在spark Sql里 创建自增id字段,作为主键?

32.

如何在spark Sql里 创建自增id字段,作为主键?

 

参考了很多Spark的RDD原生函数,比如zip(),zipWithIndex(),自增id,效率不高。尤其是DataFram转换成RDD,再用zipWithIndex()效率低下。下面我给出一个我认为比较合理的方法,借用row_number函数实现。
下面列出我的伪代码:

下面给出示例:

import org.apache.spark.sql.expressions.Window

/* Case: 1 
df是一个DataFrame
需要为其建立主键
withColumn与row_number函数结合的方式完成
**/
df.withColumn("id",row_number.over(Window.partitionBy(lit(1)).orderBy(lit(1))).cast(LongType))


/* Case: 2 
df是一个DataFrame
如果是在存量数据基础上再自增主键id
withColumn与row_number函数结合的方式完成
**/

//求当前df的最大id
var maxID = ss.sql("select if(max(id) is null, 0, max(id)) from XXXX").collect()(0)
var maxID_ = maxID(0).toString().toLong

// 在row_number()函数基础上,再加上 maxID_即可
df.withColumn("id",row_number.over(Window.partitionBy(lit(1)).orderBy(lit(1))).cast(LongType)+lit(maxID_))

 

此贴来自汇总贴的子问题,只是为了方便查询。

总贴请看置顶帖:

pyspark及Spark报错问题汇总及某些函数用法。

https://blog.youkuaiyun.com/qq0719/article/details/86003435

 

如果你的需求是根据一个字段生成 ID,并且每个固定的值都对应一个固定的 ID,可以使用 SparkSQL 中的 CASE WHEN 语句来实现。同时,如果你需要将生成的 ID 作为主键,可以使用 SparkSQL 中的 `PRIMARY KEY` 约束来实现。以下是示例代码: ```scala import org.apache.spark.sql.functions.{row_number, when} import org.apache.spark.sql.expressions.Window val df = Seq(("Alice", "female"), ("Bob", "male"), ("Charlie", "male"), ("Eve", "female")).toDF("name", "gender") val window = Window.partitionBy("gender").orderBy("name") val result = df.withColumn("id", when($"gender" === "female", row_number().over(window) + 1000) .otherwise(row_number().over(window))) .withColumn("id", $"id".cast("String")) // 将 ID 转换为字符串类型 .withColumn("id", concat($"gender", $"id")) // 使用 gender 字段作为前缀 .drop("gender") .withColumnRenamed("id", "pk") // 将 id 字段重命名为 pk .withColumn("name", $"name".cast("String")) // 将 name 字段转换为字符串类型 .select("pk", "name") .distinct() .orderBy("pk") .createOrReplaceTempView("temp_table") spark.sql("CREATE TABLE my_table (pk STRING PRIMARY KEY, name STRING) USING PARQUET") spark.sql("INSERT INTO my_table SELECT * FROM temp_table") ``` 这个示例代码的含义是:首先根据 gender 字段生成 ID,以 gender 字段加上 ID 作为主键,并将 ID 作为字符串类型。然后将 gender 字段删除,将 ID 字段重命名为 pk,并保存到一个临时表中。最后使用 CREATE TABLE 语句创建一张表,并将临时表中的数据插入到该表中。注意,这使用了 `USING PARQUET` 选项来指定表的数据格式,你也可以根据实际情况来选择其他数据格式。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值