
hive
xtqve
这个作者很懒,什么都没留下…
展开
-
Hive文件的导入与导出
官方提供两种导入数据的方式:1、从现在表中导入insert overwrite table TableName select * from original_tableName;另外一种,对多个表的插入:from TABLENAME1insert overwrite table TABLENAME2 select keyinsert overwrite ta原创 2013-12-27 20:38:38 · 980 阅读 · 0 评论 -
Hive 中一些特殊的HSQL
1、导入数据时,指定分隔符 CREATE TABLE new_table_name row format delimited fields terminated by '\t' stored by textfileas select id,name from table_name;原创 2013-12-30 16:37:03 · 1722 阅读 · 0 评论 -
Hive与关系型数据的一些差别
1.更新,事务,索引,不支持,是全表扫描,但它支持通过partition和bucket来进行快速查询2.创建表的字段类型和java类型是对应的。区别在于它有tinyint代替char,只有0.10.0之后才支持日期类型,并新增了binary数据类型,提供转换为字符串类型的函数。3.查询语句中,不支持having,可写嵌套的select来解决;group by后只能是表的定义列名,不转载 2013-12-27 16:35:57 · 817 阅读 · 0 评论 -
Hive Sort by/Order By/Cluster By/Distribute By
Order by :它是对输入做全局排序,因此只有一个reducer(多个reducer无法保证佤有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。在hive.mapred.mode=strict模式下,强制必须添加limit限制,这么做的目的是减少reducer数据规模。例如,当限制limit 100时,如果map的个数为50,则reducer的输入规模为10转载 2013-12-27 17:20:57 · 784 阅读 · 0 评论