什么是大数据?

本文深入探讨了大数据处理的关键技术,包括MPP架构、FPGA技术、Hadoop分布式系统、实时流数据处理、NoSQL数据库及多样性的数据存储策略。重点强调了大数据处理的挑战,如数据移动困难、数据清洗工作量大以及大数据团队建设的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据体现在三个方面:
容积大:数据容积达到TB,甚至PB级。传统数据库难以处理。
速度快:数据流入系统的速度很快(比如网购用户的点击流)需要及时响应和处理。这使得数据的暂时缓存再处理都变得不可能。
多样性:数据的来源和格式变化多端,可以是结构化数据(如关系数据库中的数据,csv数据),半结构化数据(XML,JSON),甚至是非结构化数据(如电子邮件,WORD文档和一般文本),数据也可能是文本数据,音频数据,视频数据,图像数据等等。

应对大容积问题,有2种技术:1是采用MPP(massive parallel processing)架构,FPGA(Field programmable gate array)技术的数据库或数据仓库,比如netezza数据仓库一体机,Teradata一体机. 2是基于apache-hadoop或类hadoop的分布式文件系统和分布式计算架构。前者需要数据有定义好的schema适合于处理大容量的结构化数据,后者无需事先定义好的schema适合处理变化的数据;前者还有一个优势是适合交互式,响应性强的任务,二后者适合批处理任务和分析处理任务。

快速流动的数据一般称为流数据或者CEP(complex event processing)。这种流数据不适合用hadoop处理。处理流数据的产品主要有2类:IBM专有产品InfoSphere Streams,和开源框架twitter的storm和yahoo的S4。
数据流速快和没有固定schema催生了noSQL数据库的发展:以键值对存储,面向列,无需固定的结构。

数据多样性使得一味地将关系数据库作为存储目的地变得不明智。一定的数据类型可能更适合特定的数据库,比如XML数据更适合存储在像MarkLogic这样的存储库,社交网络关系本质是图,更应存储在像Neo4j这样的图形数据库中。

大数据考虑点:
1.大数据很大,移动数据很难,因此要考虑把程序向数据处移动而不是把数据向程序所在的计算节点移。
2.大数据很乱,清洗和整理数据往往占了数据处理的80%的工作量。

3.大数据团队,建立数据科学家和数据分析师岗位。


参考资料:

1.腾讯大规模hadoop集群实践。http://www.youkuaiyun.com/article/2014-02-19/2818473-Tencent-Hadoop


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值