因对hadoop集群进行数据迁移,数据迁移完毕后进行两个hive库的数据一致性的比对,不仅对源表数据进行比对,而且要同时使用两个集群加工相同数据,对加工后的数据进行数据一致性比对,下面采用md5方法的验证:
#!/bin/bash
db='hmdbi'
hive -e "use $db;show tables '*';"> tables.txt
sleep 2
cat tables.txt |while read eachline
do
hive -e "use $db;select * from $eachline;" >>$eachline.txt
md5sum $eachline.txt >> md5sum.txt
done
Hadoop集群数据迁移与Hive数据一致性比对
本文介绍了一种在Hadoop集群进行数据迁移后,使用md5方法验证Hive库中数据一致性的脚本实现。该方法不仅对比了源表数据,还对两个集群加工相同数据后的结果进行了比对。
445

被折叠的 条评论
为什么被折叠?



