为什么我们需要“分布式数据湖”

本文探讨了“分布式数据湖”的概念,作为解决数据安全和授权问题的方案。数据湖能整合不同类型数据进行分析,而分布式结构则进一步增强数据主权。通过引用微信案例,阐述了去中心化数据结构如何改善用户体验。XFS系统提出了一种融合中心化和分布式存储的技术,采用分片协议和时空证明等机制,解决了数据存储、计算和授权的挑战,使数据流动成为可能并实现个人数据的自主管理。

我们的随时都受到来自各方的威胁,数据泄露、数据丢失这些问题一直困扰着我们,我们却无能为力。在这个信息裸奔的年代,我们别无选择,随着技术的进步与成熟我们逐渐找到了对抗的武器,今天就来谈一谈“分布式数据湖”这个概念。
数据湖
数据湖的概念,来自大数据和机器学习业务。我们日常一定听过数据库,数据库的形式可大可小,是非常独立的数据存储单位,每个数据存储位置都是一个数据库,当数据库之间被打通,形成一个大数据交互结构,就可以理解为数据湖的形象。数据湖是一个安全的集中式辅助存储库,它以数据原始形式和可用于分析的形式存储所有数据。
利用数据湖,可以分解数据孤岛并组合不同类型进行分析,获得分析结果指导更好的业务决策。数据湖的关键问题在于如何解决加密和数据访问授权问题,这和我们现在所说的去中心化数据结构不谋而合。
去中心化数据结构的出现和产生让我们看到了另一种数据存储的可能。
在这里插入图片描述

以微信为例,假设微信是一个去中心化的数据存储结构那么我们将不再会看到一些垃圾广告,再也不会看到某个公众号写的“xx个朋友也关注了”。用户之所以深受这些数据的毒害,根本原因在于数据的授权不完全在用户的手上,平台可以随意拿走用户的数据已经见怪不怪了。

大部分分布式系统项目的终极目标都是将数据集中起来放到分布式存储的系统中,但是仅仅是这样远远不够,哪怕我们将数据的支配权归还给用户,也只能能让用户更好的享受平台带来的服务,但是无法产生任何价值。数据依然没有体现任何的价值。那么这个时候就有人提出让数据流动起来,让数据成为数字资产的一种形式。但是摆在我们面前的两大难题分别是如何存储这些数据和如何计算这些数据。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值