- 博客(2)
- 收藏
- 关注
原创 第一章 Hadoop概述
目录1.1 为什么要用hadoop1.2 Hadoop的简要介绍1.3 谷歌的三篇论文1.4 Hadoop的发展历史1.5 Hadoop的组成部分1.6 Hadoop的生态系统1.1 为什么要用hadoop 一些数据集的大小远远超过1TB,数据的存储是一个要解决的问题。同时硬盘技术也面临一个技术瓶颈,就是硬盘的传输速度(读数据的速度)的提升远远低于硬盘容量额提升扩展知识:数据大小单位,从小到大分别是:tybe、kb、mb、Gb、Tb、PB、EB、...
2022-04-08 16:27:20
1466
原创 大数据的概述
1.1 大数据的概念海量数据,具有高增长率,数据类型多样化,一定时间内无法使用常规软件工具进行捕捉,管理和处理的数据集合。1.2 大数据的特征(4V说法,普遍认可的)1,volume:巨大的数据量2,variety:数据类型多样化结构化的数据:即具有固定格式和有限长度的数据 半结构化的数据:是一些XML或者HTML格式的数据 非结构化的数据:现在非结构化的数据越来越多,就是不定长,无固定格式的数据,例如:网页,语音,视频等3,velocity:数据增长速度快4...
2022-04-08 11:59:05
3577
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人