大数据领域职业发展全解析
1. 大数据为何重要
很多人会疑惑,我们一直都有大型数据库,这算使用大数据吗?其实,当数据集大到需要创新数据的收集、存储、组织、分析和共享方式时,才算是在使用大数据。
大数据受到关注主要源于两个重要发展的交汇:
- 数据的“五 V”特性 :
- Volume(体量) :数据集的大小。以高清视频为例,每秒视频所需字节是单页文本的 2000 倍,20 分钟的超高清未压缩视频约需 4TB 存储。
- Variety(多样性) :数据集中包含的不同数据格式。除了传统的结构化数据(如日期、金额、时间等可整齐放入关系型数据库的数据),还包括非结构化数据,如 Twitter 推文、音频文件、MRI 图像、网页等。
- Velocity(速度) :数据流入组织或系统的高速率,如安全摄像头的视频流数据或金融交易的行情数据。大数据中的速度特殊之处在于能近乎实时地快速筛选信息。
- Veracity(准确性) :管理者关心数据是否准确,能否用于预测。所有数据都存在固有误差,关键是判断该数据的误差是否超出预期。
- Value(价值) :这是前四个 V 的融合。没有价值的技术只是酷炫,而大数据的创新之处在于这四个 V 的交集能产生巨大价值。
- 技术能力提升 :如今具备了快速将数据捕获、存储并处理成有意义信息的技术能力。新数据的生成速度比过去快得多,例如 2012 年
超级会员免费看
订阅专栏 解锁全文
563

被折叠的 条评论
为什么被折叠?



