
大数据
宇宙中的Philip
这个作者很懒,什么都没留下…
展开
-
Zookeeper知识点
分布式协调框架Zookeeper一、Zookeeper概述1.1 定义 ZooKeeper是一个分布式的,开放源码的,用于分布式应用程序的协调服务(service); 从设计模式角度来看,ZooKeeper是一个基于观察者模式设计的分布式服务管理框架,他负责存储和管理大家够关系的数据,然后接受观察者的注册,一旦数据发生变化就负责通知已经在ZooKeeper上注册的那些观察者做出相应的反应。 ZooKeeper = 文件系统 + 通知机制。 ZooKeeper中三个重要的逻辑:注册原创 2020-09-13 23:45:58 · 555 阅读 · 0 评论 -
MapReduce知识点
MapReduce知识点结构图本文初衷是为了学习归纳,若有错误,请指出。修改记录时间内容2020年9月13日第一次发布一、MapReduce概述1.1 MapReduce定义MapReduce是采用一种分而治之的思想设计出来的分布式计算框架如一项复杂的计算任务,单台服务器无法胜任时,可将此大任务切分成一个个小的任务,分别交给不同的服务器上并行执行,最终再汇总每个小任务的结果MapReduce由两个阶段组成:Map阶段(把一个任务切分成多个任务),R原创 2020-09-13 12:59:40 · 1704 阅读 · 0 评论 -
MaxCompute SQL
MaxCompute SQL一、概述1.1 定义 MaxCompute(原 ODPS) SQL 适用于海量数据(TB 级别),实时性要求不高的场合,比如离线批量计算,它的每个作业的准备,提交等阶段要花费较长时间。 采用的是类似与SQL的语法,可以看作是标准SQL的子集,但和数据库也有很多不同,比如没有事务,主键约束,索引等。1.2 优缺点优点:MaxCompute SQL的优点是学习成本低,您不需要了解复杂的分布式计算概念。如果您具备数据库操作经验,便可快速熟悉MaxCompute原创 2020-09-13 09:57:23 · 6242 阅读 · 2 评论 -
Hive知识点
Hive学习1.Hive是什么1.1 Hive概念1.2 Hive与数据库区别1.3 Hive的优点和缺点1.4 Hive架构原理2.Hive的交互方式3 Hive的数据类型3.1 基本数据类型3.2 复合数据类型4.Hive的数据类型转换5.Hive的DDL操作5.1 Hive的数据库DDL操作5.2 Hive的表DDL操作(重要)5.2.1 建表语法:5.2.2 创建内部表,不加exte...原创 2020-04-10 21:25:21 · 1352 阅读 · 0 评论 -
HDFS知识点
HDFS1.Hadoop是什么?2. HDFS初体验3. 核心概念blocks3.1 HDFS的blocks块3.2 block副本3.3 机房存储策略3.4 block的一些操作4. HDFS的体系架构4.1 Namenode4.2 Datanode4.3 SecondaryDatanode5. HDFS机制5.1 心跳机制5.2 负载均衡6. ...原创 2020-04-10 21:03:16 · 518 阅读 · 0 评论 -
MapReduce编程模型和原理
MapReduce编程模型和原理1. MapReduce编程模型1.1 Map阶段1.2 Reduce阶段2. MapReduce编程示例2.1 MapReduce原理图2.2 MR参考代码2.2.1 Mapper代码2.2.2 Reducer代码2.2.3 Main程序入口2.3 本地运行2.4 集群方式2.4.1 方式一_java代码2.4.2 方式二3. Web UI查看结果3.1 ...原创 2020-04-10 20:47:21 · 1732 阅读 · 1 评论 -
资源调度框架 - Yarn
资源调度框架 - Yarn1. yarn介绍2. yarn架构2.1 ResourceManager2.2 ApplicationMaster2.3NodeManager2.4 Container2.5 ResourceManager和Container2.6 JobHistoryServer2.7 Timeline Server3. yarn应用运行原理(重要)3.1 yar...原创 2020-04-10 20:34:58 · 692 阅读 · 0 评论 -
大数据环境搭建
大数据环境搭建1.安装CentOS7虚拟机2.VM虚拟机环境配置3.配置虚拟机网络4.安装XShell工具5.上传JDK到linux机器6.安装JDK到Linux机器7.配置时间同步8.安装网络工具net-tools9.克隆虚拟机作集群节点10.分别配置三台虚拟机的IP和主机名11.root用户的免密登录配置(ssh)11.1 生成公钥和私钥11.2 配置hosts文件,用于告知当前机器如何远程链...原创 2020-04-10 13:29:44 · 769 阅读 · 0 评论 -
大数据笔记(学习归纳)
大数据笔记(学习归纳)大数据架构基础知识题大数据组件概念大数据环境搭建1.介绍一下集群搭建的过程?2.说一两个搭建过程遇到的坑?HDFS1.请介绍一下HDFS?2.HDFS的机制是指什么,它有什么作用?3.请简述下HDFS文件的读写流程4.HDFS存储大量的小文件会发生什么问题?5.block块为什么设置比较大?是不是越大越好?MapReduce分布式计算1.MapReduce的shuffle过程...原创 2020-04-10 11:22:43 · 2227 阅读 · 0 评论