第一章 大数据行业与技术趋势
- 大数据4v特征:volume大量化、velocity快速化、variety多样化、value价值化
- Volume大量化指的是数据量的增加,特别是在大数据领域中,指的是海量的数据量。
- Velocity快速化指的是数据的产生、传输和处理速度的加快,特别是在实时数据处理和分析领域中。
- Variety多样化指的是数据的类型和格式的多样性,包括结构化数据、半结构化数据和非结构化数据等。
- Value价值化指的是通过对大数据的分析和挖掘,将数据转化为有用的信息和知识,为企业和组织创造价值。
- 大数据与云计算、物联网的关系
- 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。
- 云计算为大数据提供了技术基础;大数据为云计算提供用武之地。
- 云计算为物联网提供海量数据存储能力;物联网为云计算技术提供了广阔的应用空间。
- 物联网是大数据的重要来源;大数据技术为物联网数据分析提供支撑。
- 大数据的影响:
- 思维方式方面:大数据完全颠覆了传统的思维方式(全样而非抽样、效率而非精确、相关而非因果)。
- 社会发展方面:大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现。
- 就业市场方面:大数据的兴起使得数据科学家成为热门职业。
- 人才培养方面:大数据的兴起将在很大程度上改变中国高校信息技术相关专业的现有教学。
- 大数据的两大核心技术
- 分布式存储:GFS/HDFS、BigTable/HBase、NoSQL
- 分布式处理:MapReduce
- 大数据计算模式及代表产品
- 批处理计算:针对大规模数据的批量处理。MapReduce、Spark。
- 流计算:针对流数据的实时计算。Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台。
- 图计算:针对大规模图结构数据的处理。Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb。
- 查询分析计算:大规模数据的存储管理和查询分析。Dremel、Hive、Cassandra、Impala。
第二章 分布式文件系统
一、Zookeeper
- zookeeper的定义:在Hadoop中,Zookeeper是一个开源的分布式协调服务,它提供了一个高可用的分布式环境,用于协调和管理Hadoop集群中的各种服务和组件。Zookeeper负责管理集群中各个节点的状态信息、配置信息、元数据等,以确保Hadoop集群的稳定性和一致性。它还可以用于协调Hadoop集群中不同组件之间的通信和同步操作。Zookeeper在Hadoop中扮演着非常重要的角色,帮助Hadoop集群