1.STORED AS的含义
(1)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到 hdfs 上不进行处理;
(2)sequencefile
二进制文件,以<key,value>的形式序列化到文件中;
存储方式:行存储;
可分割 压缩;
一般选择block压缩;
优势是文件和Hadoop api中的mapfile是相互兼容的
(3)refile
存储方式:数据按行分块 每块按照列存储;
压缩快 快速列存取;
读记录尽量涉及到的block最少;
读取需要的列只需要读取每个row group 的头部定义;
读取全量数据的操作 性能可能比sequencefile没有明显的优势,
(4)orcfile
存储方式:数据按行分块 每块按照列存储;
压缩快 快速列存取;
效率比rcfile高,是rcfile的改良版本。
(5)parquet
类似于orc,相对于orc文件格式,hadoop生态系统中大部分工程都支持parquet文件。
2.hive哪些操作会产生MapReduce?
避免产生MR的三种方式:
1.全表扫描,不加where子句
2.where子句只有分区字段
3.设置hive.exec.mode.local.auto=true
hive会尽量使用本地模式查询
其余的所有查询都会转换成mr