Spark SQL之引用(数据类型,NaN语义及算术运算)

最新推荐文章于 2025-02-19 22:40:34 发布

原创最新推荐文章于 2025-02-19 22:40:34 发布 · 2.3k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#Spark #Spark SQL #数据类型 #Spark算术运算

Spark 同时被 2 个专栏收录

14 篇文章

订阅专栏

Spark SQL

6 篇文章

订阅专栏

本文详细介绍了SparkSQL和DataFrames支持的各种数据类型，包括数字类型、字符串类型、二进制类型、布尔类型、日期时间类型及复合类型。并阐述了每种类型的特点，如ByteType、ShortType、IntegerType等的取值范围，以及复杂类型如ArrayType、MapType和StructType的构成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Data Types(数据类型)

Spark SQL和DataFrames支持以下数据类型:
Numeric types(数字类型)

ByteType: 表示1字节有符号整数。数字的范围是从-128到127。
ShortType: 表示2字节有符号整数。数字的范围从-32768到32767。
IntegerType: 表示4字节有符号整数。数字的范围是从-2147483648到2147483647。
LongType: 表示8字节有符号整数。数字范围从-9223372036854775808到9223372036854775807。
FloatType: 表示4字节单精度浮点数。
DoubleType: 表示8字节双精度浮点数
DecimalType: 表示具有任意精度的带符号小数。内部支持java.math.BigDecimal。BigDecimal由一个任意精度的整数无标度值和一个32位整数标度组成。

String type(字符串类型)

StringType: 表示字符串值。

Binary type(二进制类型)

BinaryType: 表示字节序列值。

Boolean type(布尔类型)

BooleanType: 是布尔值(true/false)。

Datetime type(日期时间类型)

TimestampType: 表示包含字段值的值，这些值包括年、月、日、小时、分钟和秒。
DateType: 表示由字段值组成的值，这些值包括年、月、日。

Complex types(复合类型)

ArrayType(elementType, containsNull): 表示包含具有elementType类型的元素序列的值。containsNull用于指示ArrayType值中的元素是否可以具有空值。
MapType(keyType, valueType, valueContainsNull): 表示由一组键-值对组成的值。键的数据类型由键类型描述，值的数据类型由valueType描述。对于MapType值，键值不允许为空。valueContainsNull用于指示MapType值的值是否可以为空值。
StructType(fields): 用StructFields (fields)序列描述的结构表示值。
StructField(name, dataType, nullable):表示结构类型中的字段。字段的名称由名称表示。字段的数据类型由数据类型表示。nullable用于指示此字段的值是否可以为空值。

Spark SQL的所有数据类型都位于包org.apache.spark.sql.types中。您可以通过以下操作访问它们:

import org.apache.spark.sql.types._

Scala
在这里插入图片描述
Java

NaN Semantics(非数字值的特殊值)

在处理与标准浮点语义不完全匹配的浮点类型或双类型时，对非数字(NaN)有特殊的处理。具体地说:

(1).NaN = NaN 返回true.
(2).在聚合中，所有NaN值都分组在一起。
(3).NaN 被视为联接键中的正常值。
(4).NaN 值按升序排列，比任何其他数字值都大，持续时间最长.

Arithmetic operations(算术运算)

对数值类型(小数除外)执行的操作不检查溢出。这意味着如果一个操作导致溢出，结果与Java/Scala程序中返回的操作相同。(如:如果两个整数的和大于可表示的最大值，则结果为负数)。