hive面试--hive底层如何存储Null值

1. NULL(null)值

创建一个临时表tmp_null_empty_test,并插入一些NULL数据:


    
    
  1. CREATE TABLE IF NOT EXISTS tmp_null_empty_test(
  2. uid string
  3. )
  4. ROW FORMAT DELIMITED
  5. FIELDS TERMINATED BY '\t'
  6. LINES TERMINATED BY '\n'
  7. STORED AS TEXTFILE;
  8. INSERT OVERWRITE TABLE tmp_null_empty_test select NULL from test WHERE dt = '20171016';

我们看一下从Hive中取出来的数据:


    
    
  1. hive> select * from tmp_null_empty_test;
  2. OK
  3. NULL
  4. NULL
  5. NULL
  6. NULL
  7. NULL
  8. NULL
  9. NULL
  10. NULL
  11. NULL
  12. NULL
  13. NULL
  14. NULL
  15. ...

我们再看一下这张表在HDFS上究竟是如何存储的?


    
    
  1. hadoop fs -text /user/hive/warehouse/test.db/tmp_null_empty_test/* | less
  2. \N
  3. \N
  4. \N
  5. \N
  6. \N
  7. \N
  8. \N
  9. \N
  10. \N
  11. \N
  12. \N
  13. ...

发现Hive将NULL值存储为'\N'。

Hive在底层数据中如何保存和标识NULL,是由serialization.null.format参数控制的,默认为serialization.null.format'='\\N。我们可以更改这一参数使之NULL值存储为其他形式,例如下面我们更改为"null":


    
    
  1. ALTER TABLE tmp_null_empty_test SET SERDEPROPERTIES('serialization.null.format' = 'null');

我们删除数据重新倒入一遍数据:


    
    
  1. hadoop fs -text /user/hive/warehouse/test.db/tmp_null_empty_test/* |less
  2. null
  3. null
  4. null
  5. null
  6. null
  7. null
  8. null
  9. null
  10. null
  11. ...

这样的设计存在一个问题是如果实际想存储'\N',那么实际查询出来的也是NULL而不是'\N' 。所以如果真的想存储'\N'时,可以更改配置参数为其他格式即可。

那我们在Hive中如何查询等于'NULL'的那些值呢?可以使用如下命令查询:


    
    
  1. hive> select * from tmp_null_empty_test where uid is null;
  2. OK
  3. NULL
  4. NULL
  5. NULL
  6. NULL
  7. NULL
  8. ...

2. 空字符串

我们再看一下存储空字符串的情况,删除之前的数据,重新导入一些空字符串:


    
    
  1. INSERT OVERWRITE TABLE tmp_null_empty_test select "" from test WHERE dt = '20171016';

我们看一下从Hive中取出来的数据:


    
    
  1. hive> select * from tmp_null_empty_test;
  2. OK
  3. ...
  4. Time taken: 0.047 seconds, Fetched: 36 row(s)

我们再看一下在HDFS上究竟是如何存储的?


    
    
  1. hadoop fs -text /user/hive/warehouse/test.db/tmp_null_empty_test/* |less
  2. ...

对于空字符串我们使用如下命令查询:


    
    
  1. hive> select count(*) from tmp_null_empty_test where uid = "";
  2. OK
  3. 36

但是不能使用is null来判断:


    
    
  1. hive> select count(*) from tmp_null_empty_test where uid is null;
  2. OK
  3. 0

3. 数据类型与NULL

INT与STRING的存储,NULL默认的存储都是'\N'。如果数据类型为String的数据为"",存储才是""。如果往Int类型的字段插入""数据,存储为'\N'。 查询的时候,对于Int类型数据可以使用IS NULL来判断NULL值;对于String数据类型的数据采用IS NULL来查询NULL值,采用=""来查询空字符串。

我们遇到的一个Case,在查询String数据类型uid缺失的数据时,我们不得不使用IS NULL=""两个判断条件进行过滤,我们其实想遵循SQL规范使用IS NULL一个判断条件判断即可,但是在Hive中与传统的数据库又不一样,在于NULL的解读不同。如果想延续传统数据库中对于空值为NULL,可以通过alter语句来修改hive表的信息,保证解析时是按照空值来解析NULL值:


    
    
  1. ALTER TABLE tmp_null_empty_test SET SERDEPROPERTIES('serialization.null.format' = '');

Example:


    
    
  1. hive> INSERT OVERWRITE TABLE tmp_null_empty_test select "" from test WHERE dt = '20171016';
  2. hive> select count(*) from tmp_null_empty_test where uid is null;
  3. OK
  4. 36

备注:

Hive版本为2.1.1
    
    

    
    
<think>好的,我现在需要帮助用户将RTMPose模型转换为ONNX格式或者如何在ONNX中使用RTMPose。首先,我应该回忆一下MMDeploy的相关知识,因为用户提供的引用里提到了MMDeploy,这可能是一个关键工具。 用户的问题涉及到模型转换,而引用[1]提到使用MMDeploy得到ONNX模型,所以应该从这里入手。首先,我需要确认RTMPose是否在MMDeploy的支持列表中。MMDeploy是OpenMMLab的一个部署工具,支持多种模型的导出,包括检测、分割、姿态估计等,所以RTMPose作为OpenMMLab的模型,应该支持。 接下来,步骤可能包括安装MMDeploy、配置环境,然后使用提供的工具或脚本进行转换。用户可能需要安装一些依赖,比如ONNX运行时,PyTorch,以及MMCV等。需要提醒用户检查版本兼容性,因为不同版本的库可能会有不同的接口。 然后,转换过程中可能需要加载RTMPose的配置文件(config)和检查点文件(checkpoint),使用MMDeploy的转换工具,比如tools/deploy.py脚本,指定后端为ONNX。同时,可能需要指定输入的形状,例如输入图片的大小,这对后续推理很重要。 转换完成后,用户可能需要验证生成的ONNX模型是否正确。引用[1]中也提到了使用Python SDK进行验证,可以建议用户使用ONNX Runtime加载模型,运行示例输入,检查输出是否合理。 另外,用户可能还想知道如何在ONNX中使用转换后的模型,比如进行推理的步骤。这部分需要指导如何加载ONNX模型,预处理输入数据,运行推理,以及后处理结果。可能还需要注意输入输出的名称和格式,是否符合预期。 可能遇到的问题包括版本冲突、模型转换时的错误(如不支持的算子),或者推理时的形状不匹配。这时候需要建议用户查看错误信息,检查环境配置,或者到社区寻求帮助。 最后,生成的相关问题需要考虑用户可能的后续疑问,比如性能优化、部署到其他平台、量化模型等,尤其是引用[2]提到了量化到GGUF格式,虽然用户现在可能不需要,但相关问题可以引导他们进一步探索。 总结来说,回答的结构应该是:先介绍使用MMDeploy进行转换的步骤,然后说明如何验证和使用转换后的模型,最后提醒常见问题和注意事项。确保步骤清晰,命令准确,并引用相关的参考资料。</think>要将RTMPose模型转换为ONNX格式并在ONNX中使用,可按照以下步骤操作: --- ### **步骤1:环境准备** 1. 安装MMDeploy及相关依赖: ```bash pip install openmim mim install mmengine mmcv mmpose pip install mmdeploy==1.3.0 # 确保版本与MMPose兼容[^1] ``` 2. 安装ONNX Runtime: ```bash pip install onnxruntime ``` --- ### **步骤2:模型转换** 1. **下载RTMPose配置文件和预训练权重** 从[MMPose官方仓库](https://github.com/open-mmlab/mmpose)获取RTMPose的配置文件(如`rtmpose-s_8xb256-420e_coco-256x192.py`)和对应的权重文件(`.pth`)。 2. **使用MMDeploy导出ONNX模型** 运行以下命令,指定输入尺寸(如`256x192`): ```bash python tools/deploy.py \ configs/mmpose/pose-detection_onnxruntime_dynamic.py \ /path/to/rtmpose-s_8xb256-420e_coco-256x192.py \ /path/to/rtmpose-s.pth \ /path/to/test_image.jpg \ --work-dir ./rtmpose-onnx \ --device cpu \ --show ``` 生成的ONNX文件将保存在`./rtmpose-onnx`目录中[^1]。 --- ### **步骤3:验证ONNX模型** 1. **使用ONNX Runtime推理** ```python import cv2 import numpy as np import onnxruntime # 加载ONNX模型 session = onnxruntime.InferenceSession("rtmpose-s.onnx") # 预处理输入图像(尺寸需与导出时一致) image = cv2.imread("test.jpg") image = cv2.resize(image, (192, 256)) input_data = np.transpose(image, (2, 0, 1)).astype(np.float32)[None, ...] # 运行推理 outputs = session.run(None, {"input": input_data}) keypoints = outputs[0] # 关键点坐标 ``` 2. **后处理** 根据MMPose的输出格式解析关键点,通常需要应用非极大值抑制(NMS)或阈值过滤。 --- ### **注意事项** 1. **动态输入尺寸** 若需支持动态输入,在导出时添加`--dynamic`参数: ```bash --dynamic ``` 2. **算子兼容性** 若遇到不支持的算子(如`DeformConv2d`),需检查MMDeploy版本或联系社区更新支持列表。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值