(1)数据仓库,适合结构化数据,但不适合非结构化数据。
数据的抽取和Schema的设计,都有非常强的针对性,便于业务分析师迅速获取洞察结果,用与决策支持。
(2)数据湖:支持多种格式存储数据库,结构化数据(如关系型数据库中的表),半结 构化数据(如 CSV、JSON 、XML、日志等),非结构化数据
(如电子邮件、文档、PDF 等)以及二进制数据 (如图形、音频、视频等)。但不支持事务处理、不保证数据质量in过去缺乏一致性/隔离性,
无法实现混合追加和读取数据,以及完成批处理和流式作业。
据湖更有一种“兜底”的感觉,甭管当下有用没有/或者暂时没想好怎么用,先保存着、沉淀着,将来想用的时候,尽管翻牌子就是了,反正都原汁原味的留存了下来。
(3)lakehouse:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。
Lakehouse的架构可以根据应用的需求为绝大多数的数据施加schema,使其标准化。保存的数据经过了清理和整合的过程,它可以用来加速分析,
Lakehouse的结构可以支持更多不同类型的数据,包括文件、视频、音频和系统日志。