TPC-H on Hive

本文介绍如何使用TPC-H基准测试工具生成大规模数据集,并将这些数据加载到Hive中进行分析。包括下载TPC-H代码、配置编译环境、生成数据、创建Hive表及导入数据等步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1)下载TPC-H的代码,用来生成所需要的数据
  http://www.tpc.org/tpch/spec/tpch_2_8_0.zip 或者
  http://www.tpc.org/tpch/default.asp         右边栏
  两版本略有不同


4)然后在tpch文件目录下,把makefile复制并改名成makefile,接着修改makefile文件
  shell> cp makefile.suite makefile
  shell> vim makefile
  makefile中相应项后面填写:
  CC      = gcc 

 # Current values for DATABASE are: INFORMIX, DB2, TDAT (Teradata)  

 #                                  SQLSERVER, SYBASE  

 # Current values for MACHINE are:  ATT, DOS, HP, IBM, ICL, MVS, 

 #                                  SGI, SUN, U2200, VMS, LINUX, WIN32   

 # Current values for WORKLOAD are:  TPCH 

 DATABASE= SQLSERVER  

MACHINE = LINUX  

WORKLOAD = TPCH       

5)修改tpch.h文件
  修改其中的SQLSERVER段为:
  #ifdef  SQLSERVER
  #define GEN_QUERY_PLAN        "EXPLAIN;"
  #define START_TRAN                "START TRANSACTION;\n"
  #define END_TRAN                "COMMIT;\n"
  #define SET_OUTPUT                ""
  #define SET_ROWCOUNT                "limit %d;\n"
  #define SET_DBASE                "use %s;\n"
  #endif

6)执行makefile
  shell> make

7)生成需要用的数据
  shell> ./dbgen -s 1
  -s 数据规模因子,1为1G的数据量

8)在hive上建好八个表(这里有自带的脚本tpc-h/dss.ddl,将其按照hive的语法修改到dss.ddl.hive脚本)

运行  hive -f /home/cq/tpc-h/dss.ddl.hive

建好8个表

9)将生成的数据导入表中

hive>LOAD DATA LOCAL INPATH '/home/cq/tpc-h/data/supplier.tbl' INTO TABLE supplier ;

10)执行查询

  hive -f q1.sql;

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值