步骤:
一:建表
1. 获取建表语句(例dim_area),代码如下
注意:如果不设置建表格式为orc文件,txt文件load data 到orc中会出错。
2.做部分修改后获得如下
create table dim_area(AreaId int,AreaName string,ParentId int,Short string,IsActive int,FullName string,start_date string,end_date string)clustered by (AreaId) into 8 buckets stored as orc tblproperties('transactional=true');
二:数据导入临时表(dim_area_tmp)之后直接写入表(dim_area)通过类似于sql语法的方式导入
1.利用sqoop组件导入hive中某数据库的dim_area_tmp表中,代码如下(通过kettle中shell组件实现,写成一行代码)
2.将临时表(dim_area_tmp)数据导入目标表(dim_area)中,代码如下