Hive 两张表数据验证方案、两张大表如何进行数据验证以及剔除部分字段进行数据验证

最新推荐文章于 2024-11-30 21:37:48 发布

原创

最新推荐文章于 2024-11-30 21:37:48 发布 · 3.1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据

本文介绍了一种在测试环境中对宽表数据进行验证的方法。通过union两张表后group by检查数据差异，并针对concat_ws字段顺序问题提出了解决方案。利用Hive SQL进行数据验证，确保测试数据与线上数据的一致性。

最近的问题是，宽表在上线之前，需要在测试环境进行试跑，试跑结束后如何跟线上正式数据进行比对呢？简单记录一下设计方案。

1、小表数据验证

一些字段比较少的表进行数据验证的方案之前出过

Hive 数据模型切换后的数据验证方案_小菜菜1223的博客-优快云博客

select * from (
    select contr_no
    ,user_id
    ,unique_id
    ,if_open_cooperator
    from test.a
    where dt='20220908'
) a
join (
    select contra_no
    ,usr_id
    ,prod_cd
    ,if_open_cooperator
    from test.b
    where dt='20220908'
) b
on a.contr_no=b.contra_no
where (
    coalesce(a.if_open_cooperator,'')!=coalesce(b.if_open_cooperator,'')
)
;

2、宽表数据验证

本次宽表数据验证我想得方法是讲两张表的数据进行union，然后group by 一下查看是否有!=1的数据，这样就能检测出数据有无差异。

select usr_id from (
select * from data_mart_tmp.cust_info_five_lgy_test
union
select * f

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小菜菜1223

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive跨表JOIN性能优化：基于抽样统计的实战解决方案

石榴姐yyds

04-03

273

前置诊断：通过10%抽样快速定位倾斜键，避免全局计算开销。分层优化热点键分治解决数据倾斜分桶表消除ShuffleMap Join加速小表关联统计驱动：定期收集表级统计信息，赋能CBO生成最优执行计划。我是会飞的一十六，专注分享硬核大数据技术💬 欢迎留言讨论：你遇到过最坑的JOIN场景是什么？📌思考题：当遇到数据倾斜严重的关联场景时，抽样策略应该如何调整？欢迎在评论区分享你的实战经验！

关于数据中台的深度思考与总结

wenyusuran的专栏

06-22

2001

数据中台数据汇聚数据汇聚是数据中台必须提供的核心工具，把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储，为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等；从汇聚的时效性来分，有离线批量汇聚和实时采集。数据采集工具 Canal、DataX、Sqoop 数据开发数据开发模块主要面向开发人员、分析人员，提供离线、实时、算法开发工具。离线开发作业调度 •依赖调度：所有父作业运行完成后，当前作业才能开始运行。图64中的作业B，只.

参与评论您还未登录，请先登录后发表或查看评论

比较两张表的数据是否一致

fengchao1000的专栏

04-07

3704

》两张表的结构相同，要比较两张表的数据是否一致： 例如：a表中列有（id,name,age） ,b表中列有（id,name,age） >select b.id from a,b where a.name=b.name and a.age =b.age 以上的sql语句可以查出a,b两个表中的相同数据。 下面的sql语句可以查出在a表中没有在b表存在的数据： select * from a wh

hive 两张表全量数据对比

dataastron的博客

05-09

1万+

hive 两张表全量数据对比select * from ( select max(source) source,c1,c2 ,c3,count(*) from ( select 1 source, a.* from dev.astron_wangluochayi_1 a union all

0458-Hive数据类型校验问题分析

Hadoop_SC的博客

01-28

1704

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1 文章编写目的使用Hive时大家都会遇到数据类型校验的问题，相比传统关系型数据库会严格要求数据的Schema，数据的列数、每一列的字段类型都有严格的规定，因此数...

hive 比较两个表数据的不同

wangwangstone的博客

12-08

1万+

工作中常会需要去对比两个表中某些数据的不同。以及关于join的操作。这里将遇到的记录一下。比较两个表的不同 left Join 保证了左表的数据一定会存在，对于这类查Diff的场景很合适下面这个语句可以查出来T2中比T1新增的列与数据 key表示连接的关键值，唯一信息的那一列，例如用户ID之类 SELECT * FOROM T1 LEFT JOIN SELECT * FROM T2 ON T1.key = T2.key WHERE T2.key is NULL 对于想进..

两张表的数据对比

thedarkclouds的博客

06-21

3858

第一种方案：select * from tb_a A where NOT EXISTS (select 1 from tb_b B where A.ID = B.ID); 第二种方案：select * from tb_a A where A.ID NOT IN(select B.ID from tb_b B );...

大数据新视界 -- 大数据大厂之 Hive 数据压缩：优化存储与传输的关键（上）（19/ 30）

【青云交】华为云云享专家 | 阿里云开发者社区专家博主技术圈个人影响力前 17 | 博客之星 TOP23 优快云首位四榜（原力榜 / 作者周榜 / 领军人物 / 综合热榜）榜首，破平台纪录！苏州地区全榜霸榜，感恩全网十多万粉丝同行！

11-30

3923

本文承前启后，聚焦 Hive 数据压缩，深挖压缩算法（原理、Hive 支持算法及选策），详呈表与分区压缩实战、细究查询性能平衡，佐以多行业案例，具实操价值，设互动引下篇，助优化存储传输。

hivesql清洗数据列里的？

最新发布

03-20

由于 Hive 默认以 UTF-8 存储数据，因此建议验证输入源文件是否一致地遵循相同标准；否则可能会引发不可预见的结果。 --- ### JSON 字段规范化假如待清洁的内容存储于 JSON 类型之中，那么还需额外关注其内部结构...

不同hive集群中基于表的数据一致性比对

zcb_data的博客

05-09

5652

前阵子博主遇到一个需求，因对hadoop集群进行数据迁移，数据迁移完毕后进行两个hive库的数据一致性的比对，不仅对源表数据进行比对，而且要同时使用两个集群加工相同数据，对加工后的数据进行数据一致性比对。博主已知的数据迁移方法有两种，第一种就是hadoop distcp功能来进行集群间数据的复制，那么基本就不用做源表的数据验证了，集群间数据复制失败会报错提示。第二种方法就是...

Hive字段校验测试

shengpli′s blog

07-13

1224

一、HDFS文件中字段类型和表字段长度/类型不一致场景结论 1.如果是varchar类型长度短与文件中字段长度，通过HQL查询时，会直接截断超过varchar类型长度的字符； 2.如果表字段类型和HDFS文件中数据类型不匹配，则直接显示NULL 二、通过HQL插入长度/类型不一致数据场景 DROP TABLE tmp.test0713; CREATE TABLE `tmp.test0713`( `PK_ID` varchar(1) COMMENT '主键' ) ROW FORMAT DELIMITED F

Hive UDF—实现表比对

LSB19930706的博客

11-09

1170

一、需求背景：源表oracle抽取数据到hive中，源表没有更新时间字段，也无法协调部门配置oracle redo log或者CDC，但是需要获取到变化的数据，并打上标签。此UDF技术点：每张表字段数不固定，如何写不定长函数，像concat，当然可以参考hive源码如何实现concat内置函数，下面使用HashMap存放函数不定长入参。二、代码实现： import java.util.HashMap; import java.util.Map; import org.apache.hadoo

Hive 数据模型切换后的数据验证方案

qq_40771567的博客

09-15

2027

Hive 数据模型切换后的数据验证方案

hive的巧用：查询两个表中不一样的数据

freemanjj的博客

07-24

1万+

https://www.imooc.com/article/17676 2017.04.24 14:27 4691浏览字号上个星期我在前辈的项目中发现了一个有趣的事情： select a.* FROM A a left outer join B b on a.qq = b.qq WHERE b.qq is null; 恩，很好。 WHERE b.qq is null; ...........

上亿条数据，如何比对并发现两个表数据差异

热门推荐

aijiudu的博客

04-13

1万+

目录一、背景二、分析流程三、验数方法 3.1 数据量级比对 3.2 一致性比对 3.2.1勾稽验证+md5方法 3.2.2 暴力比对法 3.3差异数据发现四、总结一、背景做数据，经常遇到数据验证，很烦很枯燥，即耗时又耗人，但又必须去做。如何去做数据验证，并标准化整个流程，让验数变得轻松。二、分析流程 …… 相同表结构数据验证：比如修改表逻辑相似表结...

在hive中query外部表的简单测试

我的学习成长日记

09-10

1938

背景知识开始前需要确认hadoop和hive都已经安装好了。我们可以在hive shell中执行show tables;来检查hive是否可以正常工作。然后需要知道的是，在hive中有两种表： Managed Tables Managed tables or sometimes called internal tables, because Hive controls the

【Hive】双表关联比对话单数据

u013202518的博客

04-09

1720

分享一个几年前写的hive的话单比对的sql 需求实现创建外部表读取目录的层级关系，修改外部表（体现hive表的分区属性）执行话单比对结果保存到hive表操作人员：配置两边的路径配置构成主键的字段、要比对的字段这个可能就是以配置文件的形式提供，你的linux shell要读取这个配置文件 //======================================================================== source_hdfs=/apps/pr.

hive关联查询多次执行结果不一致_搞什么！！MyBatis 查询结果与 MySQL 执行结果不一致？...

weixin_39553272的博客

11-26

511

最近在业务中遇到一个问题，业务是这样的：在插入新用户时需要校验用户的某些信息是否唯一，而在程序中校验结果永远是不唯一的。然后我把 MyBatis 打印的执行 SQL 语句拿了出来在数据库中执行，发现没有数据。然后我就奇怪了，数据库是同一个啊、SQL 是同一个啊、查询结果都没有变啊，为什么执行的结果在程序里面是 1，而在数据库中是0。难道是因为 MyBatis 和数据库执行的结果不一样？后来我才明白...

两张表数据不一致进行对比

清华大咖

09-11

1297

两张表数据不一致进行对比，找不不一样的数据，使用外连接查询 SELECT * from ys_yhxx yh1 left join ys_yhxx_copy1 yh2 on yh1.customerNo=yh2.customerNo WHERE yh2.customerId is null;SELECT * from ys_yhxx_copy1 yh1 left j...

生成100万条Hive大表测试数据的高效方法

资源摘要信息:"Hive大表的测试数据" Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。Hive适用于离线分析，...