6、数据仓库、数据湖、文档管理与数据架构设计

数据仓库、数据湖、文档管理与数据架构设计

1. 大数据与非结构化数据概述

大数据指的是规模过于庞大,传统数据库或数据处理应用程序无法处理的数据集,通常包含数亿甚至数十亿行数据。在过去十年中,随着数据存储成本的降低和处理能力的提高,大数据变得越来越流行。企业逐渐认识到数据的重要性,希望利用数据进行人工智能驱动的决策、提供个性化的以客户为中心的服务等。不过,也有人批评大数据方法只是将数据随意存储,期望有一天能发挥作用。但不可否认,正确使用大数据能为企业带来竞争优势,而且大数据也是机器学习算法的关键要素。

非结构化数据因互联网的蓬勃发展而变得更加普遍。这类数据没有预定义的结构,无法直接存储到结构化的关系型数据库管理系统(RDBMS)中。多数情况下,非结构化数据以文本形式呈现,例如PDF文件,可通过文本挖掘从中提取结构和相关数据。

2. 数据仓库和数据湖的本质

2.1 数据仓库

数据仓库(DW或DWH)是一个集中存储当前和历史数据的仓库,这些数据来自一个或多个不同的数据源。它也被称为企业数据仓库(EDW),主要用于数据分析和报告,通常是企业商业智能战略的核心。

数据仓库中的数据来自多个系统,如运营系统(如CRM系统)。在将数据上传到数据仓库之前,可能需要进行一系列的数据清洗活动,以确保数据质量。一些数据仓库工具具备内置的提取、转换和加载(ETL)功能,而另一些则依赖外部第三方工具。ETL功能可确保摄入的数据具有特定的质量和结构,数据可能会先暂存到特定的暂存区,然后再加载到数据仓库中。常见的数据仓库解决方案有Amazon Redshift,它是一个完全托管的基于云的数据仓库。

2.2 数据湖

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值