Hadoop生态圈
Hadoop大数据生态圈常用框架知识点
寡言闲客
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Presto
Prestopresto是由一个Coordinator和多个worker组成的。Presto工作流程1)客户端提交查询,从Presto命令行提交到coordinator2)coordinator解析查询命令,分发到worker3)woker根据负责执行和处理数据4)woker处理的数据源叫catalog,包含schema和connector5)connector是用来适配数据源的适配...原创 2020-04-16 15:44:09 · 357 阅读 · 0 评论 -
SparkCore知识汇总
SparkCoreRDD 概述RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD 的属性一组分区(Partition),即数据集的基本组成单位;一个计算每个分区的函数;RDD 之间的依赖关系;一个 Partitioner...原创 2020-03-31 15:43:06 · 366 阅读 · 0 评论 -
Spark概述
Spark什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析引擎。Spark 内置模块Spark Core: 实现Spark的基本功能,包含任务调度吗,内容管理,错误恢复,与存储系统交互等模块。Spark Core中还包含对弹性分布式数据集(简称RDD)的API定义。Spark SQL: 是spark用来操作结构化数据的程序包,通过SparkSQL,我们可以使用S...原创 2020-03-31 10:55:51 · 331 阅读 · 0 评论 -
Zookeeper基本知识点总结
Zookeeper入门概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper的工作机制Zookeeper = 文件系统+通知机制从设计模式来看Zookeeper是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,并且接受观察者的注册,一旦这些数据发生变化,Zookeeper就负责通知注册在zookeeper上...原创 2020-03-30 15:15:08 · 535 阅读 · 0 评论 -
Kafka基础考点
KafkaKafka 概述定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域消息队列使用消息队列的好处:1) 解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列...原创 2020-03-30 12:59:08 · 455 阅读 · 0 评论 -
Flume知识点总结
FlumeFlume基础Flume是一个高可用的,高可靠的分布式日志采集传输系统。常用系统分布Flume 基础架构AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent由三部分组成,分别是Source,Channel和Sink,他在图中就代表中间的方块。SourceSorce是用来接收数据进入Agent中的组件。Source可以...原创 2020-03-29 16:48:31 · 648 阅读 · 0 评论 -
Hive学习
Hive常用知识点Hive入门Hive基础知识Hive的优缺点Hive架构原理Hive和数据库比较Hive安装HiveJDBC访问Hive常用交互命令Hive其他命令操作Hive常见属性配置查询后信息显示配置Hive运行日志信息配置Hive数据类型基本数据类型数据集合类型类型转化DDL数据定义创建数据库查询数据库修改数据库删除数据库创建表管理表(内部表)外部表管理表与外部表的互相转换分区表分区表注...原创 2020-03-29 14:12:16 · 762 阅读 · 0 评论 -
HBase常用知识点
HBaseHbase定义Hbase定义Hbase数据模型HBase 逻辑结构HBase 物理存储结构数据模型HBase 基本架构HBase Shell 操作表的操作HBase 进阶架构原理写流程MemStore Flush读流程StoreFile CompactionRegion SplitHBase APIHBaseAPI与 Hive 的集成HBase 与 Hive 的对比HBase 与 Hiv...原创 2020-03-28 15:16:19 · 1089 阅读 · 0 评论 -
Hadoop之MapReduce
MapReduceMapReduceMapReduce概述MapReduce定义Mapreduce的优缺点Mapreduce的核心思想MapReduce编程规范Hadoop序列化MapReduceMapReduce概述MapReduce定义Mapreduce是一个分布式运算框架。核心功能是将用户编写的业务逻辑和自带默认组件整合成一个完整的分布式运算程序部署在hadoop上。Mapr...原创 2020-03-27 19:12:27 · 1521 阅读 · 0 评论 -
HDFS主要知识汇总
HDFSHDFS是一个分布式文件系统,适合一次写入多次读出的场景。HDFS的优缺点优点高容错性:数据自动保存多个副本,默认是3,且在某个副本丢失后可以自动恢复适合处理大数据:数据规模大,文件规模多可以构建在廉价机器上,通过多副本机制,提高可靠性。缺点不适合低延时数据访问,比如毫秒级别的存储数据,是做不到的。无法高效的对对大量小文件进行处理,所以可以采用特定的文件格式处理小文...原创 2020-03-26 18:38:28 · 664 阅读 · 0 评论 -
Hadoop基础介绍
Hadoop基础知识一.Hadoop组成:Hadoop1.x1.MapReducee(计算+资源调度)2.HDFS(存储)3.Common(辅助工具)Hadoop2.x1.MapReducee(计算)2.Yarn(计算)3.HDFS(存储)4.Common(辅助工具)HDFS架构概述NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文...原创 2020-03-26 14:52:39 · 373 阅读 · 0 评论
分享