Hive 数仓开发过程涉及基础知识点_hive数仓需要掌握哪些知识-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_64616164/article/details/139268497

主要解决数据的：接 ->存 ->管 ->算 ->查
一、Hive数仓的实际生产开发过程中，优化主要围绕提高查询效率、降低资源消耗、确保数据准确性和增强系统的可维护性等方面展开：

### 1. **表设计优化**
- **分区与桶表**：合理利用分区和桶表特性。分区可以按时间、地域等维度划分数据，减少查询扫描范围；桶表通过哈希分桶提高join效率。
- **列式存储格式**：使用ORC或Parquet等列式存储格式，减少I/O，提升查询性能。
- **压缩**：适当对数据进行压缩，减少存储空间和传输时间，但需平衡压缩带来的CPU解压开销。

### 2. **查询优化**
- **避免全表扫描**：尽量减少SELECT *，只查询需要的列。
- **减少子查询**：子查询可能导致多次全表扫描，尽可能用JOIN替代。
- **并行执行**：合理设置map和reduce任务的数量，根据集群资源和查询特性调整。
- **优化JOIN策略**：使用MapJoin减少小表广播，避免笛卡尔积。

### 3. **资源管理**
- **YARN队列管理**：合理配置Hive在YARN中的队列资源，确保资源分配合理，避免资源争抢。
- **动态资源调整**：启用Hive的动态分区和动态分配功能，根据实际需要动态调整资源。

### 4. **元数据与统计信息**
- **更新统计信息**：定期ANALYZE TABLE来更新表和分区的统计信息，帮助优化器做出更好的执行计划。
- **使用Cost-Based Optimizer (CBO)**：确保Hive使用CBO，它会根据统计信息选择最优执行计划。

### 5. **数据生命周期管理**
- **数据清理**：定期清理不再需要的历史数据或分区，减少存储和维护成本。
- **归档策略**：对冷数据采用归档策略，如Hive的Archiving特性或外部归档系统。

### 6. **代码与作业管理**
- **代码审查**：定期进行SQL代码审查，避免低效的查询逻辑。
- **作业调度**：