建造一个MapD官网上测试用的12亿行数据库

本文介绍如何从特定网站下载并解压超过1亿行的航班数据,利用SQL命令建立表结构,并通过COPY命令加载数据到自定义表中。整个过程在CPU而非GPU上完成。

1.该测试库来自于以下的网站:

http://stat-computing.org/dataexpo/2009/the-data.html

该网站上所有的年份的数据库加起来是123534969行。

2.将以上的数据库下载下来,我放到了这个文件夹中:/mapd-core/build/sample_datasets/flights_year。

3.用以下命令分别解压:bunzip2 1999.csv.bz2

4.新建一个表:

create table flights_ASA_year (
Flight_Year int,
Flight_Month int,
Flight_DayofMonth int,
Flight_DayOfWeek int,
DepTime int,
CRSDepTime int,
ArrTime int,
CRSArrTime int,
UniqueCarrier varchar(5),
FlightNum int,
TailNum varchar(8),
ActualElapsedTime int,
CRSElapsedTime int,
AirTime int,
ArrDelay int,
DepDelay int,
Origin varchar(3),
Dest varchar(3),
Distance int,
TaxiIn int,
TaxiOut int,
Cancelled int,
CancellationCode varchar(1),
Diverted varchar(1),
CarrierDelay int,
WeatherDelay int,
NASDelay int,
SecurityDelay int,
LateAircraftDelay int
);

5.使用以下的命令拷备10次:

COPY flights_ASA_year from '/mapd-core/build/sample_datasets/flights_year/*' WITH (nulls = 'NA');

每次结果有以下的返回,证明拷备成功:

Result
Loaded: 123534969 recs, Rejected: 0 recs in 441.858000 secs

6.至此创建了MapD官网上的12行测试数据库。

注:该过程用的不是GPU,而是CPU。实时测试,GPU数据无变化,CPU变化如下:

CPU%在2000左右。mem%在20左右。

 

转载于:https://www.cnblogs.com/laozhuang/p/7097883.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值