spark dataframe 将null 改为 nan

SparkSQL处理NULL为NaN

最新推荐文章于 2022-07-05 11:30:44 发布

转载最新推荐文章于 2022-07-05 11:30:44 发布 · 438 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/sunhuahuaa/p/9285111.html

文章标签：

#大数据

本文介绍如何在SparkSQL中使用CASE WHEN和ISNULL方法将数据源中的NULL值转换为NaN，以确保在叠加某列数据时遇到NULL值能正确处理为NaN，而不影响数据的完整性和计算结果。

由于我要叠加rdd某列的数据，如果加数中出现nan，结果也需要是nan，nan可以做到，但我要处理的数据源中的nan是以null的形式出现的，null不能叠加，而且我也不能删掉含null的行，于是我用了sparksql 的 ISNULL和CASE WHEN方法：

Case When 方法：

如果obs_PRE_1h列有值则不变，没有则变为nan，注意这里的nan需要写成 float（‘NaN’）

SELECT (CASE WHEN ISNULL(obs_PRE_1h)=true THEN float('NaN') ELSE obs_PRE_1h END) as obs,(CASE WHEN ISNULL(fcst_PRE_1h)=true THEN float('NaN') ELSE fcst_PRE_1h END) as fcst FROM parquetFile

源dataframe是这样的：

结果：

转载于:https://www.cnblogs.com/sunhuahuaa/p/9285111.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

aochen3846

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark SQL | DataFrame的各种玩法

weixin_43646592的博客

06-28

1083

Spark SQL | DataFrame的各种玩法

Spark SQL（二）：DataFrame APIs

YFater的博客

10-28

1194

文章目录一.输入与输出1.DataFrameReader.csv 一.输入与输出方法概述 DataFrameReader.csv(path[, schema, sep, …]) 加载一个CSV文件并以DataFrame的形式返回结果。 DataFrameReader.format(source) 指定输入数据源格式。 DataFrameReader.jdbc(url, table[, column, …]) 构造一个 DataFrame，它表示通过 JDBC URL 和连接属性可

参与评论您还未登录，请先登录后发表或查看评论

dataframe 填充 Nonetype 以及nan数据

weixin_41684423的博客

04-25

2575

如果csv文件里面在对应列没有值的话，查看这个数据的类型会是Nonetype，填充方法： Nonetype： df_train['keyword'].replace(to_replace=[None],value='None',inplace=True) float型的空值会是nan：填充如下 df_train.fillna(value=你要填充的值, inplace=True) ...

Spark SQL之引用(数据类型,NaN语义及算术运算)

Thomson617的博客

02-22

2437

Data Types(数据类型) Spark SQL和DataFrames支持以下数据类型: Numeric types(数字类型) ByteType: 表示1字节有符号整数。数字的范围是从-128到127。 ShortType: 表示2字节有符号整数。数字的范围从-32768到32767。 IntegerType: 表示4字节有符号整数。数字的范围是从-2147483648到2147483647...

spark dataframe出现NaN的情况

别说话写代码的博客

10-14

1442

一般如果计算时，分母为0会出现NaN 另一种计算时如果有元素为NaN，那么计算结果也是NaN

Spark SQL之空值Null,NaN判断和处理

南风知我意

07-05

7837

Spark SQL空值Null,NaN判断和处理 drop,fill,filter.coalease,replace,nullif,nvl

spark-SaprkSQL:缺失值处理,聚合操作,连接操作,UDF函数,窗口函数

weixin_45154559的博客

06-09

1143

1.缺失值处理 SparkSQL提供了DataFrameNaFunctions缺失值处理框架,使用Dataset的na函数来获取 (1)如何使用 SparkSQL 处理 null 和 NaN ? 首先要将数据读取出来, 此次使用的数据集直接存在 NaN, 在指定 Schema 后, 可直接被转为 Double.NaN val schema = StructType( List( StructField("id", IntegerType), StructField("year", Int

sparkdataframe 将特殊值替换为null

05-24

Spark DataFrame 可以使用 `na.replace()` 方法将特殊值替换为 null。该方法接受两个参数：要替换的值和替换值。例如，将所有字符串 "N/A" 替换为 null： ```python from pyspark.sql.functions import when df = ...

【Spark】Dataset与DataFrame的使用

HR的博客

01-06

1621

@[toc](Dataset (DataFrame) 的基础操作)

scala spark dataframe.na.drop()

04-28

这是一个 Spark DataFrame API 中的方法，用于去除 DataFrame 中包含 null 或 NaN 的行。该方法默认删除所有包含任何 null 或 NaN 的行。如果您只想删除所有列都为空的行，则可以使用 drop() 方法中的参数 subset。...

【SparkSQL 】扩展 ---- 数据清洗：缺失值处理

懂得一千零一种,赋予你失败的方法！

12-19

4421

【SparkSQL 】扩展 ---- 数据清洗：缺失值处理目录：一、什么是缺失值二、DataFrameNaFunctions 缺失值处理框架三、NaN 、null 缺失值 1.丢弃 2.填充替换四、字符串缺失值 ---- “null”、"NA" 1.丢弃 2.填充替换 &

Spark_DataFrame 去除 null, NaN 和空字符串

迎难而上

05-30

8833

去除null、NaN 去除 dataframe 中的 null 、 NaN 有方法 drop ，用 dataframe.na 找出带有 null、 NaN 的行，用 drop 删除行： df.na.drop() 去除空字符串去除空字符串用 dataframe.where ： df.where("colname <> '' ") 示例代码 package com.spark.test.offline.filter import org.apache.sp...

Python 处理DataFrame数据 pd.isnull() np.isnan()的方式

ac540101928的专栏

12-26

9418

数据处理时，经常会遇到处理数据中的空值，涉及几个常用函数，pd.isnull()，pd.notnull()，np.isnan()，pd.notna()，pd.isna()，pd.fillna()、pd.dropna()等等. 本文关注pd.isnull()，pd.notnull()，np.isnan()，pd.notna()，pd.isna()。总结：由下可知，np.isnan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际

Spark Dataset DataFrame空值null,NaN判断和处理

热门推荐

爱是与世界平行

09-20

1万+

Spark Dataset DataFrame空值null,NaN判断和处理 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Dataset import org.apache.spark.sql.Row import org.apache.spark.sql.DataFrame import org.apa...

dataframe 设置空值_spark dataframe 填充列值为 null（空值）的方式

weixin_39622332的博客

01-14

5406

在实际开发中，常常遇到多个 dataframe 关联(即 join)操作后，有些字段或列的值为 null 的情况，我们需要对列值为空进行填充数据，通过 dataframe.fillna() 或dataframe.na.fill() 函数即可完成，fill 函数底层也是调用 fillna。解决方式这里列出了 fillna 函数填充指定列的示例：from pyspark.sql import Spa...

Spark2 Dataset DataFrame空值null,NaN判断和处理

weixin_34138255的博客

10-29

1137

import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Dataset import org.apache.spark.sql.Row import org.apache.spark.sql.DataFrame import org.apache.spark.sql.Column import...

将DataFrame中的空列表替换为nan值

longwei92的博客

11-09

9789

DataFrame中空列表显示为[]，将其替换为NaN值的方法 df = df.mask(df.applymap(str).eq('[]'))

Spark DataFrame的空值形式和空值和非空值之间的相互转换

Buevara的博客

02-21

7592

1.空值替换为其他值建df时的空值表示形式为:null null val df = Seq("a", null, "c", "b").toDF("col1") df.show() var df4 = df.na.fill(value="qqq",Array[String]("col1")) df4.show() df: org.apache.spark.sql.DataFrame = [co...