Ambari 1.Hadoop部署:两种方式1.1大数据集群手工管理方式(Apache hadoop)1.2大数据集群工具管理方式(Manger 和Ambari);1.3我经历过的安装Hadoop用的Ambari;底层HDFS占用了1+n台服务器,1台NameNode和N台DataNode;Hive搭配Presto处理数据工厂;日志收集用的kafka,日志放在ElasticSearch服务上代替把日志放数据库里;文件上传分两种,方案一是Object Storage存储不规则数据,方案二采用了流管理服务Datahub搭配DataX管理异构的数据源; 2.狭义Hadoop:核心就是MapReduce+HDFS+YARN;Hadoop开发所用语言是java;2.1)MapReduce:大数据表查询,利用JAVA语言中“Map(映射)”和“Reduce(归约)”,来代替SQL中的分组函数和表联结;Hive对MapReduce进行了封装。2.2)HDFS:分布式存储,多服务器与分布式,文件系统 3.Spark:搭配上HDFS可以替换Hadoop;Spark语言是jvm;可以用java,Scala或Python3.1Hadoop可以独立完成数据的存储和处理工作,因为其除了提供HDFS分布式数据存储功能,还提供MapReduce数据处理功能。3.2Spark没有提供文件管理系统,它必须和其他的分布式文件系统进行集成才能运作。可以选择Hadoop的HDFS,也可以选择其他平台。 1.Hadoop部署:两种方式 1.1大数据集群手工管理方式(Apache hadoop) 1.2大数据集群工具管理方式(Manger 和Ambari); 3.2.1 Hortonworks公司的Ambari + HDP (开源) 3.2.2 Cloudera公司的 Manger + CDH(不开源,收费) 1.3我经历过的安装Hadoop用的Ambari;底层HDFS占用了1+n台服务器,1台NameNode和N台DataNode;Hive搭配Presto处理数据工厂;日志收集用的kafka,日志放在ElasticSearch服务上代替把日志放数据库里;文件上传分两种,方案一是Object Storage存储不规则数据,方案二采用了流管理服务Datahub搭配DataX管理异构的数据源; 2.狭义Hadoop:核心就是MapReduce+HDFS+YARN;Hadoop开发所用语言是java; 2.1)MapReduce:大数据表查询,利用JAVA语言中“Map(映射)”和“Reduce(归约)”,来代替SQL中的分组函数和表联结;Hive对MapReduce进行了封装。 2.2)HDFS:分布式存储,多服务器与分布式,文件系统 3.Spark:搭配上HDFS可以替换Hadoop;Spark语言是jvm;可以用java,Scala或Python 3.1Hadoop可以独立完成数据的存储和处理工作,因为其除了提供HDFS分布式数据存储功能,还提供MapReduce数据处理功能。 3.2Spark没有提供文件管理系统,它必须和其他的分布式文件系统进行集成才能运作。可以选择Hadoop的HDFS,也可以选择其他平台。