大数据(Big data),或称巨量数据、海量数据、 大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理称为人类所能解读的形式的信息--维基百科
大数据的特点(4V)
Volume数据量巨大
Variety数据多样性:结构化/非结构化,文件/图片/视频/音频地理位置等
Value价值密度低:像交通监控视频,有用的就那么一两秒
Velocity处理速度快:处理数据的效率就是企业的生命
什么是Hadoop
Hadoop是一个有Apache基金会所开发的分布式系统基础架构
2006年2月从Nutch项目中分离出来,正式成为Apache顶级项目之一
Hadoop是根据Google公司发表的MapReduce和Google文件系统的论文自行实现而成
什么是CDH
Hadoop的发行版除了社区的Apache Hadoop外,Cloudera,Hortonworks,MapR,EMC,Intel,华为等都提供了自己的商业版本,CDH为Cloudera公司发布的Hadoop商业版本
2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持,咨询,服务,培训
大数据不擅长OLTP的应用场景