1、数据仓库
- 数据仓库是数据库的清理和集成,是新型决策管理信息系统的解决方案。
- 区分OLTP和OLAP:OLTP是联机事务处理,侧重于事务的实时处理,如CUD操作,由数据库辅助完成;OLAP是联机分析处理,支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,快速灵活的处理数据,直观易懂的查询数据结果。
- 数据仓库一般包括:数据层、应用层(分析、处理、挖掘)、表现层
下面是OLAP的大致过程:
2、·Hive数据仓库
1)功能
- ETL功能
- 数据存储管理
- 对大数据的查询和分析
2)特点
- 延时高、高扩展性(自适应机器的数量和数据量的变化)
- 无数据排序和查询cache功能
- 不支持在线事务处理
- 不提供实时的查询和记录更新
- 良好的容错性
3)数据结构
- 内部表:hive的存储是建立在hadoop文件系统上,一个表对应一个文件目录,内部表是建立在默认设置的目录中,删除内部表时元数据和数据本身都删除