Hadoop基础介绍
云计算
云计算是对现有资源集中优化后,对客户提供服务,从现在的情况来看云计算真实的为大家提供了服务,比如:网盘等。至于云计算更为准确的定义为美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作或与服务供应商进行很少的交互。
云计算特点如下:
(1) 超大规模:“云”具有相当的规模,赋予用户前所未有的计算能力;
(2) 虚拟化:云计算支持用户在任意位置、使用各种终端获取应用服务;
(3) 高可靠性:“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性;
(4) 通用性:云计算不针对特定的应用,同一个“云”可以同时支撑不同的应用运行;
(5) 高可扩展性:“云”的规模可以动态伸缩,满足应用和用户规模增长的需要;
(6) 按需服务:“云”是一个庞大的资源池,可以需购买;
(7) 极其廉价:由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本;
(8) 潜在的危险性
云计算可以认为包括以下几个层次的服务:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。
1.IaaS(Infrastructure-as-a-Service):基础设施即服务。消费者通过Internet可以从完善的计算机基础设施获得服务。例如:硬件服务器租用。
2.PaaS:PaaS(Platform-as-a- Service):平台即服务。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。例如:软件的个性化定制开发。
3.SaaS:SaaS(Software-as-a- Service):软件即服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。例如:阳光云服务器。
Hadoop介绍
数据的介绍
数据来源
纽约证券交易所每天产生1 TB的交易数据。
著名社交网站Facebook的主机存储着约100亿张照片,占据PB级存储空间。
Ancestry.com,一个家谱网站,存储着2.5 PB数据。
互联网档案馆(The Internet Archive)存储着约2 PB数据,并以每月至少20 TB的速度增长。
瑞士日内瓦附近的大型强子对撞机每年产生约15 PB的数据。
数据的存储和分析
问题很简单:多年来硬盘存储容量快速增加的同时,访问速度-- 数据从硬盘读取的速度-- 却未能与时俱进。1990年,一个普通的硬盘驱动器可存储1370 MB的数据并拥有4.4 MB/s的传输速度 ,所以,只需五分钟的时间就可以读取整个磁盘的数据。20年过去了,1 TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100 MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。
什么是“大数据”?
2012年淘宝数据总量是20PB,每天大概会扫描900TB数据,每月会增加1.5P,日增0.06P数据,一天高峰阶段每秒要处理30G的数据。
2015年腾讯数据总量有100PB存储容量,有8800台单集群服务器,每天扫描8.5PB数据量,10000亿日接入消息数,10000个并发分拣业务接口。
大数据和云计算究竟有什么关系?
简单来说:云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。
云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化后再进行分配使用。在云计算领域目前的老大应该算是Amazon,可以说为云计算提供了商业化的标准,另外值得关注的还有VMware(其实从这一点可以帮助你理解云计算和虚拟化的关系),IBM,开源的云平台最有活力的就是Openstack了;
可以说,大数据相当于海量数据的“数据库”,通观大数据领域的发展我们也可以看出,当前的大数据发展一直在向着近似于传统数据库体验的方向发展,一句话就是,传统数据库给大数据的发展提供了足够大的空间。
大数据的总体架构包括三层:数据存储ÿ