spark dataframe新增一列的四种方法

最新推荐文章于 2024-03-22 09:50:44 发布

li3xiao3jie2

最新推荐文章于 2024-03-22 09:50:44 发布

阅读量3.1w

点赞数 2

CC 4.0 BY-SA版权

分类专栏：算法文章标签： spark dataframe

本文链接：https://blog.youkuaiyun.com/li3xiao3jie2/article/details/81317249

算法专栏收录该内容

1 篇文章

订阅专栏

本文介绍了在Spark DataFrame中新增列的四种实用方法，包括利用createDataFrame、withColumn、SQL代码及monotonically_increasing_id函数，为数据处理提供多样化的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark dataframe新增一列的四种方法

作为一个学习scala+spark的菜鸟，刚开始学习dataframe的多样化处理有些新奇，对于新增一列的方法，经过多方查询学习，总结了如下四种常用方法，分享给大家，以报答各位前辈网络提携之恩。

方法一：利用createDataFrame方法，新增列的过程包含在构建rdd和schema中
方法二：利用withColumn方法，新增列的过程包含在udf函数中
方法三：利用SQL代码，新增列的过程直接写入SQL代码中
方法四：以上三种是增加一个有判断的列，如果想要增加一列唯一序号，可以使用monotonically_increasing_id

代码块

//dataframe新增一列方法1，利用createDataFrame方法
val trdd = input.select(targetColumns).rdd.map(x=>{
  if (x.get(0).toString().toDouble > critValueR || x.get(0).toString().toDouble < critValueL) 
    Row(x.get(0).toString().toDouble,"F")
  else Row(x.get(0).toString().toDouble,"T")      
  })      
val schema = input.select(targetColumns).schema.add("flag", StringType, true)
val sample3 = ss.createDataFrame(trdd, schema).distinct().withColumnRenamed(targetColumns, "idx")

//dataframe新增一列方法2
val code :(Int => String) = (arg: Int) => {if (arg > critValueR || arg < critValueL) "F" else "T"}
val addCol = udf(code)
val sample3 = input.select(targetColumns).withColumn("flag", addCol(input(targetColumns)))
.withColumnRenamed(targetColumns, "idx")

//dataframe新增一列方法3
input.select(targetColumns).createOrReplaceTempView("tmp")
val sample3 = ss.sqlContext.sql("select distinct "+targetColname+
    " as idx,case when "+targetColname+">"+critValueR+" then 'F'"+
    " when "+targetColname+"<"+critValueL+" then 'F' else 'T' end as flag from tmp")

//添加序号列
import org.apache.spark.sql.functions.monotonically_increasing_id
val inputnew = input.withColumn("idx", monotonically_increasing_id)