数据平台:超越传统数据仓库的解决方案
1. 数据平台简介
当数据科学家成为数据系统的用户时,数据的规模和多样性挑战会同时出现。机器学习模型需要大量的数据,数据科学家开发的模型通常不仅需要访问数据仓库中有组织、经过整理的数据,还需要访问各种原始源文件数据,而这些数据通常不会被纳入数据仓库。这些模型计算密集,在数据仓库中运行时,会给系统带来巨大的性能压力。在当前的数据仓库架构下,这些模型的运行时间往往长达数小时甚至数天,并且在运行过程中还会影响其他所有用户对仓库的使用性能。让数据科学家访问数据湖中大量、多样的数据,不仅能让每个人都更满意,还有可能降低成本。
除了数据的规模(Volume)、多样性(Variety)和速度(Velocity)这三个“V”之外,准确性(Veracity)和价值(Value)也是选择数据平台而非单纯数据仓库时需要考虑的因素。只有当数据用户(包括人员、模型或其他系统)能够及时访问数据并有效利用时,数据才能转化为价值。
数据湖的优点是可以让人们访问更多的数据,但缺点是提供的部分数据可能不像数据仓库中的数据那样干净、有组织和得到良好的治理。数据的准确性是任何大数据项目的主要考虑因素。许多大数据项目需要在数据治理(确保准确性)和访问更多数据以创造价值之间取得平衡。可以将数据平台不仅用作生成数据仓库中受治理数据集的原始数据源,还可以将其作为一个未受治理或轻度治理的数据存储库,让用户可以探索其全部数据,同时清楚这些数据尚未用于企业报告。当涉及数据湖时,数据治理越来越被视为一个迭代、更敏捷的过程:在探索阶段完成且模型似乎能产生良好输出后,数据会转移到数据仓库,成为受治理数据集的一部分。
2. 常见用例
了解数据平台的各种用例对于
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



