特点
1)hive采用的schema on read(读时模式),只有在读时才会检查、解析具体的数据字段,schema;因此它load数据的时候速度非常快,不需要解析数据,只是对数据进行拷贝,移动。
2)hive具有复杂的数据结构(数组,映射,结构体)
3)hive不支持实时数据处理,对索引的支持较弱。
4)hive不支持行级插入。
5)延迟高,数据量大,多存储在hdfs上。
6)执行为mapreduce。
7)hive不支持行级操作也不支持事务。
内部表与外部表的区别
ive创建内部表时,会将数据移动到数据仓库指向的路径,hive管理数据的生命周期;
创建外部表时,仅记录数据所在的路径,不对数据的位置做任何改变。
在删除表时,内部表的元数据和数据会一起被删除。外部表只删除元数据,不删除数据。
选择:内部表与外部表没有太大区别。如果所有的数据都由hive处理,则创建内部表;如果数据的处理由hive和其他工具一起处理,则创建外部表。