"阿里研究中心:大数据时代"分享总结

本文探讨了大数据的四个关键特征:大量、多样、快速和价值,并分析了这些数据如何成为企业的核心资产。文中还介绍了大数据来源、对信息化的影响及未来方向,并深入讨论了大数据的相关技术,包括数据处理、存储和计算等方面。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述:

此分享是关于阿里研究中心:大数据时代的分享汇总

 

分享点:

大数据4V:大量(Volume);多样(Variety);快速(Velocity)和价值(Value)
数据是资产,云为数据资产提供存储、访问和计算

数据来源:
互联网企业:SNS、微博、视频网站、电子商务网站
物联网、移动设备、终端中的商品、个人位置、传感器采集的数据
联通、移动、电信等通信和互联网运营商
天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据等
金融行业
大数据对信息化影响:
传统软件开发流程敏捷开发(快速演进)
企业信息化不只是订单系统上线,订单处理也需自动化跟上
通过分析师对一系列的数据、行为的分析后才能得到用户需求

大数据的方向:
云计算是基础设施架构
大数据是灵魂资产
分析、挖掘是手段
发现和预测是最终目标

大数据相关技术:

分析技术:
数据处理:自然语言处理技术
统计和分析:A/B test; top N排行榜;地域占比;文本情感分析
数据挖掘:关联规则分析;分类;聚类
模型预测:预测模型;机器学习;建模仿真

大数据技术:
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等

存储:
结构化数据:海量数据的查询、统计、更新等操作效率低
非结构化数据:图片、视频、word、pdf、ppt等文件存储不利于检索
半结构化数据:转换为结构化存储和按照非结构化存储
存储问题解决方案:NoSQL技术: HDFS, HBASE, OceanBase,  MongoDB等

计算:
因结构变化为导致计算模式变更
需求模式变化带来的计算碰到瓶颈
解决方案:MapReduce技术和流计算(twitter的storm和yahoo!的S4)

 

更多详情参见附件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值