PySpark DataFrame 添加自增 ID

最新推荐文章于 2024-01-22 11:25:21 发布

孤数不证

最新推荐文章于 2024-01-22 11:25:21 发布

阅读量3.7k

点赞数 5

本文链接：https://blog.youkuaiyun.com/weixin_43668299/article/details/103269810

版权

在Spark处理数据时，为DataFrame添加自增ID是常见需求。本文介绍了三种方法：1) 使用monotonically_increasing_id()函数，生成的ID虽唯一但不连续；2) 利用窗口函数创建连续ID；3) 转换为RDD，利用zipWithIndex算子实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在用 Spark 处理数据的时候，经常需要给全量数据增加一列自增 ID 序

号，在存入数据库的时候，自增 ID 也常常是一个很关键的要素。

在 DataFrame 的 API 中没有实现这一功能，所以只能通过其他方式实

现，或者转成 RDD 再用 RDD 的 zipWithIndex 算子实现。

下面呢就介绍三种实现方式。

   创建 DataFrame 对象

  from pyspark.sql import SparkSession

  spark = SparkSession.builder.getOrCreate()

 df = spark.createDataFrame(
[
    {"name": "Alice", "age": 18},
    {"name": "Sitoi", "age": 22},
    {"name": "Shitao", "age": 22},
    {"name": "Tom", "age": 7},
    {"name": "De", "age": 17},
    {"name": "Apple", "age": 45}
]
)
df.show()

输出：

+---+------+
|age|  name|
+---+------+
| 18| Alice|
| 22| Sitoi|
| 22|Shitao|
|  7|   Tom|
| 17|    De|
| 45| Apple|
+---+------+

1**,monotonically_inc

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

孤数不证

关注关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark DataFrame 新增一列的四种方法

给我一点温度

07-22

7064

作为一个学习 Python spark 的菜鸟，刚开始学习 dataframe 的多样化处理有些新奇，对于新增一列的方法，经过多方查询学习，总结了如下四种常用方法，分享给大家。虽然以下语言是用Scala写的，但使用Python的原理也是一样，方法一：利用 createDataFrame 方法，新增列的过程包含在构建 rdd 和 schema 中方法二：利用 withColumn 方法，新增列的过程包含在 udf 函数中方法三：利用 SQL 代码，新增列的过程直接写入 SQL 代码中 ...

聚类（一）pyspark 实现特征的ID化

Keep Thinking And Learning

04-25

2483

项目中需要实现一个简单的聚类，初步衡量了下样本数量在2000W左右，第一次写spark还是14年的时候，而且都是基于java实现的模型算法，这次就简单用pyspark实现了特征的Id化，即将字符串类型的特征转为数字表示的Id。这个在模型中相对比较常见，比较主要的点应该是使用broadcast广播了特征和id的映射关系。 #!/usr/bin/env python #-*-coding:u

1 条评论您还未登录，请先登录后发表或查看评论

pyspark里加自增ID

Jacquelin_1的博客

03-25

965

这个需求好多时候是建立在想横向合并两个pyspark_dataframe，但是pyspark_dataframe与pandas_dataframe有所不同，无法用concat这类函数硬拼接，pyspark里的monotonically_increasing_id函数到一定长度之后两个df自增的中间会隔断，突然从一个比较大的数开始，合并之后就是空或缺行的dataframe，如下图：解决方式如下：...

pyspark 增加一列连续自增id

WGS.

07-07

1175

def flat(l): for k in l: if not isinstance(k, (list, tuple)): yield k else: yield from flat(k) def mkdf_tojoin(df): schema = df.schema.add(StructField("tmpid", LongType())) rdd = df.rdd.zipWithIndex()

Spark DataFrame 添加ID列

我的博客

08-30

1442

import org.apache.spark.sql.functions._ df.withColumn("id", monotonically_increasing_id)

pyspark给hive表增加自增列

攻城狮Kevin

02-24

1224

一般增加自增列可以考虑row_number() over(partition by XX order by XX) as rank 但是需要给hive表全局加上自增列，并且没有字段可供排序时，partition by和order by后无表字段可用。这种情况只能考虑用row_number() over(order by 1)，即每一行记录多出个1，然后对1进行排序，取排序号作为自增id列，但是这样结果会出现一个问题：记录结果会被打乱，因为无论spark还是mr本质是分布式进行的，运行多个task，

基于PySpark和ALS算法实现基本的电影推荐流程

pysense的博客

01-11

5099

2、读数据多个api 基本常用读取数据的api sc.pickleFile() # <class 'pyspark.rdd.RDD'> sc.textFile() # <class 'pyspark.rdd.RDD'> spark.read.json() # <class 'pyspark.sql.dataframe.DataFrame'> spark.read...

pyspark如何使用zipWithIndex增加一个自增列

05-17

# 或者使用monotonically_increasing_id函数为DataFrame增加一个自增列 df = df.withColumn("id", monotonically_increasing_id()) ``` 上述代码中，先通过read.csv读入数据，然后使用zipWithIndex函数或者...

MySQL、Teradata和PySpark代码互转表和数据转换代码

08-06

MySQL使用`AUTO_INCREMENT`关键字指定自增字段，这些字段可以自动增加，适用于诸如ID号之类的场景。 ### Teradata数据库 Teradata是一个高性能的MPP（大规模并行处理）关系数据库系统。它使用SQL语法，但是有一些...

spark中monotonically_increasing_id的坑

like_red的博客

12-07

7549

日常工作中因为获取到的交互矩阵中user是string的，所以需要转换成long或int的unique id。本来以为发现了一个非常好用的函数monotonically_increasing_id，再join回来就行了，直接可以实现为： import org.apache.spark.sql.functions.monotonically_increasing_id userdf = df.s...

Python：Pandas中Dataframe的“增”操作

DY7778F的博客

08-18

1368

在讲解如何对一个Dataframe进行增操作前，我们首先创造一个Dataframe（代码运行环境：jupyter—python3.8）： import pandas as pd import numpy # 创建一个Dataframe data = pd.DataFrame( np.arange(15).reshape(5, 3), index=[1, 2, 3, 4, 5], columns=["a", "b", "c"] ) data 一、增加一列方法1：列索引法我们只需要通过列索引即

sparksql_monotonically_increasing_id 生成唯一自增ID

wj1298250240的博客

01-12

3090

#发现有重复的ID，我们可能需要重新给每行数据分分配唯一的新的ID来标示它们 # 增加一个新列 df.withColumn('new_id', fn.monotonically_increasing_id()).show() #withColums 新增一列 #monotonically_increasing_id 生成唯一自增ID +---+------+------+---+------+--...

Spark DataFrame转化为RDD[Vector]，应用于KMeans聚类，monotonically_increasing_id()方法进行结果合并

Buevara的博客

03-30

2154

将DataFrame转化为RDD[Vector]，应用于KMeans聚类模型训练 import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.rdd.RDD import org.apache.spark.mllib.clustering.{KMeans, KMeansModel} import org.apac...

Spark DataFrame添加自增ID

weixin_42278668的博客

01-22

874

此方法最快捷，序列从0开始自增。

pandas to_sql保存数据到数据库后，添加自增长的主键ID(PRIMARY KEY)

呆萌的代Ma

09-20

5703

构造dataframe import pandas as pd import numpy as np df = pd.DataFrame(data=np.random.randint(0, 20, size=(1000, 3))) df.columns = ['col_1', 'col_2', 'col_3'] 构造数据库 from sqlalchemy import create_engine db_name = "test_db" # 要保存的数据库名 table_name = "my_.

spark DataFrame新增一列id列(单调递增，不重复)的几种方法

liaodaoluyun的博客

01-10

6591

1.使用functions里面的monotonically_increasing_id(),生成单调递增，不保证连续，最大64bit，的一列.分区数不变。 import org.apache.spark.sql.functions._ val df1 = spark.range(0,1000).toDF("col1") val df2 = df1.withColumn("id", monoto...

pyspark常用语法

doswynkfsw的博客

08-31

1706

大数据处理快速上手spark要点。

向Spark的DataFrame增加一列数据