大数据技术体系1(清华:大数据技术体系)

本文探讨了大数据领域面临的挑战,包括数据质量、存储、分析、可视化及计算范型的变革。强调了在分布式与流体环境下,确保数据一致性和时效性的难度,以及大数据分析从传统BI向数据科学的转变。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【1】采集与集成

【2】存储与管理

【3】分析与挖掘

【4】可视化

【5】计算范型

【6】隐私与安全

 

01数据质量-无法回避的挑战

传统数据质量仅通过EFL方式执行,即抽取、转换、加载,包括解析、模式分析等。

没有完全覆盖数据质量的基本性质

挑战

分布式环境中,如何保证全局数据的一致性、精确性、完整性

流体环境中,如何保证时效性(e.g 时序一致性)

在大数据中,保证绝对的数据质量并不现实

高维、异质、模糊、海量、多变

02存储的老问题、新挑战

一些转变:

Hash大于扫描

单副本转向多副本

单阶段转向多阶段

压缩不再解压

03大数据分析的特点

 传统BI数据科学&大数据分析
焦点发生了什么将要发生什么
数据小规模、干净数据,简单的统计模型大规模、多样化、无关联数据,语义模糊、复杂的预测模型
支持因果分析:事件及其将要发生的原因关联分析:利用多个若关联数据源发现有潜在价值的结果

主要问题

监控动态流数据,跟踪变化趋势;而非仅仅考虑静态数据

和数据科学家一起工作,而非仅仅靠数据工程师

将大数据分析工具集成到核心业务和运营环节

04可视化的挑战

将大规模数据中蕴含的信息、知识与规律,利用计算机软件更好的揭示出来

通过人来的交互和反馈,触发新一轮的知识发现过程,是大数据分析的关键。因此,可视化是人类实现数据洞察的关键的交互通道。在大数据时代起到重要的技术支撑作用。

05计算范型

数据找程序 -> 程序找数据

Scale Up -> Scale Out

传统计算 -> 云计算

Virtual Machine & Multi Tenants

CPU -> HPU(Crowdsourcing)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值