Hive中浮点数比较踩过的坑

最新推荐文章于 2023-05-09 18:13:27 发布

原创最新推荐文章于 2023-05-09 18:13:27 发布 · 2.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #sql #大数据

大数据专栏收录该内容

19 篇文章

订阅专栏

疑问案例：

查询员工表中薪水的减免税超过0.2（20%）的数据：

select name, salary, deductions from employees where deductions > 0.2;

查询结果：

John 100000.0 0.2
Mary 80000.0 0.2
Tom 200000.0 0.3
Fred 150000.0 0.3

为什么deductions = 0.2 的记录也被输出了？

原因：

浮点数float和double在比较的过程中，存在float转化为double进行比较的过程，在float --> double中会出现0.2的最近似的精确值略大于0.2的情况。

这个问题并非仅仅存在于Hive中，Java也存在此问题。

这是所有使用IEEE标准进行浮点数编码的系统中，普遍存在的一个问题。

0.2对于float 类型是0.2000001，而对于double类型是0.200000000001。

这是因为一个8字节的double值具有更多的小数位（小数点后的位数）。当表中的float值通过Hive转换为double值时，其产生的double值是0.200000100000，这个值实际要比0.200000000001大，这就是为什么查询结果像是使用了 >= 而不是 > 了。

对于上述问题的规避方法：

使用cast操作符显式地指出0.2是float类型。

cast语法：cast( 数值 as float )

select name, salary, deductions from employees where deductions > cast(0.2 as float);

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小迷糊同学

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【HQL】Hive 的数据类型

每天更新大数据面经和技术

04-27

561

大数据开发必须会 SQL，而 Hive SQL 和普通的 SQL 有差异。今天开始学习 HQL。在学习编程之前，首先了解 Hive 的基本数据类型。 1.基本数据类型数据类型长度例子 TINYINT 1 byte 有符号整数 20 SMALINT 2 byte 有符号整数 20 INT 4 byte 有符号整数 20 BIGINT 8 byte 有符号整数 20 BOOLEAN 布尔类型 TRUE FLOAT 单精度浮点数 3.14159 DOUBLE 双

Hive中的数据类型和存储格式总结

limenghao2002的博客

07-11

1842

Hive中的数据类型和存储格式总结

参与评论您还未登录，请先登录后发表或查看评论

MySQL 数据库中 CAST 函数如何使用？

林夕

05-09

6214

CAST 函数是 SQL 中的一种类型转换函数，它用于将一个数据类型转换为另一个数据类型。

TERADATA中函数的使用

thy822的专栏

10-26

8562

CAST函数转换函数，可以将字符型数据转为日期型或数据型，将整型转为浮点型，举例如下 SELECT CAST('20140207' AS DATE FORMAT 'YYYYMMDD') ,CAST('07' AS FLOAT) ,CAST(15 AS FLOAT) ,CAST(18.987654 AS DEC(5,3))

Hive函数05_细说CAST函数（数据类型转化）

热门推荐

清平乐的技术专栏

12-31

2万+

一、Hive的隐式转换 Hive内置数据类型由基本数据类型和复杂数据类型组成，基础类型例如下图所示的几种今天的话题是研究Hive数据类型之间的转换。hive同java一样，也包括隐式转换（implicit conversions）和显式转换（explicitly conversions）。我们举一个numeric类型的数隐式转换的例子，假如一个数据类型是INT型，另一个是SMALLINT类型...

Hive SQL中浮点数比较大小：double与float比较大小

海若_matrix的博客

11-30

8185

1.hive浮点数比较规则 hive浮点数比较规则依照java规则，当float和doule进行比较时，会统一转换为double进行比较。 float精度不如double高比如同样是0.2 float可能会表示成0.200001(实际精度会更高，此处仅说明原理) 而double则会表示成0.20000000000001(实际精度会更高，此处仅说明原理) 所以0.2f 不等于0.2d 2.问题描述 0.2f与0.2d进行比较在hive中对float和double类型的0.2进行了比较，说明二者不相..

hive 浮点类型比较(float double)

后知后觉的it路

02-13

1万+

0 前提：表employees中字段 taxes(税率)用类型float存储 hive> select name, salary, taxes from employees where taxes > 0.2 john 5300.0 0.2 marry 9500.0 0.2 jack 15000.0 0.3 ...

HIVE函数详解大全

09-06

本篇文章将详细解析Hive中的各种函数，帮助你更好地理解和应用这些功能。一、关系运算关系运算用于比较两个或多个表达式，确定它们之间的逻辑关系。以下是Hive支持的关系运算符： 1. 等值比较：`=` - 用于判断...

Hive学习笔记（更新中）

TheEvil7的博客

11-27

618

Hive学习 1、Hive数据类型 1.1、基本数据类型数据类型所占字节开始支持版本及描述 TINYINT 1字节（8位）有符号整数 1 SMALLINT 2字节（16位）有符号整数 1 INT 4字节（32位）有符号整数 1 BIGINT 8字节（64位）有符号整数１ FLOAT 4字节（32位）单精度浮点数 1 DOUBLE 8字节（64位）双精度浮点数 1 BOOLEAN true/false TRUE STRING 字符串 ‘xia’，“xia”

hiveSQL的小数取整

CLKTOY的博客

01-06

2071

目录0- 前言1- 四舍五入取整截取2- 向下取整截取3- 向上取整截取4- 舍弃小数取整5- 举例 0- 前言 hive 里的向上取整、向下取整、四舍五入取整的实例.以及精确保留小数位数。 1- 四舍五入取整截取 select round(54.56,0) round至少保留一位小数。 55.0 2- 向下取整截取 SELECT FLOOR(54.56) 54 3- 向上取整截取 SELECT CEILING(13.15) 14 4- 舍弃小数取整 select cast(123.5678 as i

Hive关于浮点数比较

stay hungry ! stay foolish!

10-19

1136

Hive关于浮点数比较目录 1、案例 2、解决方案 1、案例定义：deductions map<String, Float>类型实际上0.2对于float类型是0.2000001，而对于double类型是0.20000000001。当表中的float值通过hive转换位double值是，其产生的double...

【hive】关于浮点数比较的问题

weixin_30411819的博客

10-12

681

当在hive中写下浮点数(例如:0.2) hive会把浮点数(0.2)存储为double类型但是系统中并不能精准表示0.2这个浮点数 正确的浮点数表示 float 0.2 —> 0.2000000 double 0.2 —> 0.200000000000 但是系统中表示为 float 0.2 —> 0.2000001 double 0.2 —> 0.2...

hive数据类型转换

weixin_34258078的博客

09-03

1294

博客地址：http://www.iteblog.com/文章标题：《Hive数据类型转换》本文链接：http://www.iteblog.com/archives/892Hadoop、Hive、Hbase、Flume等QQ交流群：138615359（已满），请加入新群：149892483本博客的微信公共帐号为：iteblog_hadoop，欢迎大家关注。如果你觉得本文对你有帮...

hive类型转换

qq_44463295的博客

01-16

8973

一、hive类型之间的转换 1）隐式转换（1）可以由小的类型转换为大的类型，比如从int到bigint，byte到int，int, 到string 2）整形，float 和 string都可以转换为double 3)boolean类型不可以转换为任何类型（boolean为：true和false） 2）显式转换使用cast操作将数据类型进行转换比如 cast(‘1’ AS INT) 把字符串转换为整数1，如果cast转换为类型失败会返回 NULL（hive表中某个字段不存在时，也为NULL）。一些特

类型转换函数cast-Cast(字段名 as 转换的类型 )

LC的博客

11-30

1932

CAST函数语法规则是：Cast(字段名 as 转换的类型 )，其中类型可以为： CHAR[(N)] 字符型 DATE 日期型 DATETIME 日期和时间型 DECIMAL float型 SIGNED int TIME 时间型

hive中的数据类型

qq_42870851的博客

11-11

5151

hive中的数据类型：下表列举了Hive所支持的基本数据类型：数据类型：基本数类型： tinyint/smallint/int/bigint: 整数类型 float/double: 浮点数类型 boolean：布尔类型 string：字符串类型复杂数据类型： Array：数组类型，由一系列相同数据类型的元素组成Map：集合类型，包含key->value键值对，可以通过key来访问元素Struct：结构类型，可以包含不同数据类型的元。这些元素可以通过"点语法"的方式来得到所需要的元素时间类型：

as cast float server sql_【SQL】基础函数

weixin_42298760的博客

01-03

372

SQL中基本函数大致有5种：算术函数——用来计算数值，比较大小等；字符串函数——用来拼接、截取等；日期函数——计算时间差、提取时间值等；转换函数——数据类型转来转去；聚合函数——求和、求平均值、计数等。案例数据如下两表：左右滑动查看更多壹算术函数1.1 求绝对值：ABS(数值)例1：查询所有售价减掉50的绝对值。select *, abs(sales_amount-50)fro...

Hive数据类型

哈

02-18

696

基本数据类型集合数据类型数据类型转换隐式类型转换规则如下自动向上转型：任何整数类型都可以隐式地转换为一个范围更广的类型，如TINYINT可以转换成INT，INT可以转换成BIGINT。所有整数类型、FLOAT和STRING类型都可以隐式地转换成DOUBLE。 TINYINT、SMALLINT、INT都可以转换为FLOAT。 BOOLEAN类型不可以转换为任何其它的类型。可以使用...

sqlserver @jsonstr 自定义字段名称_自定义字段攻略

weixin_39638014的博客

12-13

566

销售易CRM为客户提供了丰富的自定义功能，通过这些功能，可以完成客户对自己CRM系统的个性化设置。今天，给大家讲解一下自定义字段的功能及使用注意事项，仅供参考。字段创建窗口创建字段的时候，所有类型字段有2个公共的必填项目，即：字段名称和API名称。不同类型的字段又有不同的必填属性。API名称字段名称不必赘述，大家在使用系统的时候都会了解这个属性的具体意义，但是API名称需要强调一下。AP...

hive中两个字段比较大小值的函数

最新发布

07-08

在 Hive 中，虽然没有专门用于比较两个字段大小的函数（如 `COMPARE()`），但可以使用标准 SQL 比较运算符和一些内置函数来实现类似功能。以下是几种常见的方法： ### 1. 使用比较操作符 Hive 支持常见的比较操作符来比较两个列的值： - `>`：判断左侧列是否大于右侧列 - `<`：判断左侧列是否小于右侧列 - `=`：判断两个列是否相等 - `>=` 和 `<=`：分别表示“大于等于”和“小于等于” - `<>` 或 `!=`：不等于例如，查询某个表中 `col1 > col2` 的记录： ```sql SELECT * FROM table_name WHERE col1 > col2; ``` ### 2. 使用 `CASE WHEN` 表达式进行条件判断如果需要根据两个字段的大小关系返回不同的结果标签，可以使用 `CASE WHEN` 表达式： ```sql SELECT col1, col2, CASE WHEN col1 > col2 THEN 'col1 is greater' WHEN col1 < col2 THEN 'col2 is greater' ELSE 'equal' END AS comparison_result FROM table_name; ``` ### 3. 使用 `GREATEST` 和 `LEAST` 函数 Hive 提供了 `GREATEST` 和 `LEAST` 函数，可用于从多个列或表达式中选择最大值或最小值 [^1]。 - `GREATEST(col1, col2)` 返回两列中的较大值。 - `LEAST(col1, col2)` 返回两列中的较小值。例如： ```sql SELECT col1, col2, GREATEST(col1, col2) AS max_value, LEAST(col1, col2) AS min_value FROM table_name; ``` 这些函数适用于整数、浮点数、字符串等多种数据类型，并且支持多参数输入。 ### 4. 使用 `SIGN` 函数结合数学计算若希望以数值形式表示比较结果（如 1 表示大于，-1 表示小于，0 表示相等），可以使用以下方式： ```sql SELECT col1, col2, CASE WHEN col1 - col2 > 0 THEN 1 WHEN col1 - col2 < 0 THEN -1 ELSE 0 END AS compare_code FROM table_name; ``` 或者使用 `SIGN` 函数简化该逻辑： ```sql SELECT col1, col2, SIGN(col1 - col2) AS compare_sign FROM table_name; ``` `compare_sign` 的取值含义如下： - `1`：`col1 > col2` - `-1`：`col1 < col2` - `0`：`col1 = col2` ### 5. 自定义 UDF 实现复杂比较逻辑对于更复杂的比较需求，例如对自定义类型进行比较，可以通过编写 Hive UDF 来扩展功能。UDF 需要将 Java 类打包为 JAR 文件并注册到 Hive 环境中 [^5]。例如，创建一个临时 UDF 并使用它进行比较： ```sql ADD JAR /path/to/your_udf.jar; CREATE TEMPORARY FUNCTION custom_compare AS 'com.example.CustomCompareUDF'; -- 使用 UDF 进行比较 SELECT col1, col2, custom_compare(col1, col2) FROM table_name; ``` ### 6. 处理 NULL 值的情况当涉及 NULL 值时，Hive 的比较行为遵循 SQL 标准——任何与 NULL 的比较都会返回 NULL。为了处理这种情况，可以使用 `COALESCE` 函数提供默认值： ```sql SELECT COALESCE(col1, 0), COALESCE(col2, 0), GREATEST(COALESCE(col1, 0), COALESCE(col2, 0)) AS safe_max FROM table_name; ``` ###