数据湖:大数据问题、网络安全问题与企业安全的解决方案
1. 引言
我们的社会架构是通过机器和互联网构建起来的。越来越多的用户、设备和应用程序借助物联网(IoT)和传感器等先进工具与技术协同工作,产生了海量的数据。这些海量数据在相关文献中被称为“大数据”,通常具有多个“V”特征,其中最常见的 3 个“V”是:数据量(Volume)、数据种类(Variety)和数据速度(Velocity)。数据量指的是数据的生成规模;数据种类代表不同类型的数据,如结构化、非结构化和半结构化数据;数据速度则表示数据的生成速率和分析速度。
数据在我们日常生活的方方面面都至关重要。企业数据被广泛用于更好地决策和高效地运营管理。企业需要频繁分析这些数据,以识别满足业务需求的有用信息。大多数企业生成的数据是非结构化的,例如可穿戴传感器产生的数据。从 2010 年到 2024 年,全球数据量呈指数级增长。据预测,到 2025 年,全球数据量将达到 175ZB,其中仅物联网设备产生的数据就将达到 90ZB,且 80%的数据将是非结构化的。
随着来自信息安全事件、用户、威胁及相关信息等不同领域的大数据量不断增加,为了分析和监控系统信息,需要以“原始”格式存储这些异构数据。然而,安全地捕获和存储数据的挑战也日益复杂。
服务提供商通常采用传统方法,如数据仓库来存储数据。数据仓库是一个用于分析数据、整合信息和生成报告的单一存储库。但将数据传输到仓库需要进行预处理,面对海量的网络数据,这并非易事。预处理需要高端超级计算机进行大量计算,既耗时又耗钱。为解决这一问题,数据湖的概念应运而生。与数据仓库不同,数据湖可以存储任何类型的原始数据。数据仓库和数据湖都可视为存储和处理大数据的方法,但数据湖常被视为解决大
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



