
Hadoop
murphyZ
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop重点组件
HDFS:分布式文件系统 MAPREDUCE:分布式运算程序开发框架 HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具 HBASE:基于HADOOP的分布式海量数据库 ZOOKEEPER:分布式协调服务基础组件 Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库 Oozie:工作流调度框架 Sqoop:数据导入导出工具 Flume:日志...原创 2019-03-15 11:40:23 · 188 阅读 · 0 评论 -
分布式系统概述以及常用分布式软件系统举例
一、分布式系统概述 分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、存储任务。其目的是利用更多的机器,处理更多的数据。 二、常用分布式软件系统举例 Web服务器集群 单台服务器的性能和资源都是有限的,支持的连接并发数都有上限,因此必须采用多服务器集群的方法才能提高连接并发数。连接并发数的...原创 2019-03-15 11:38:34 · 5259 阅读 · 0 评论 -
Hadoop集群环境搭建(虚拟机模拟集群)
一、Hadoop集群规划 主机名:映射配置之后 Hadoop软件版本 运行进程 node01 原生hadoop-2.7.2 nameNode、resourceManager、secondary namenode no...原创 2019-03-15 15:39:16 · 631 阅读 · 0 评论 -
HDFS Shell
客户端命令操作 hdfs dfs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-c...原创 2019-03-18 20:28:26 · 263 阅读 · 0 评论 -
HDFS工作机制概述
HDFS架构 HDFS集群分为两大角色(进程):NameNode、DataNode 集群中主机分别放置在不同的机架中; NameNode 负责管理整个文件系统的元数据; DataNode 负责管理用户的文件数据块block; 文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上; 每一个文件块可以有多个副本,并存放在不同的datanode上; Datano...原创 2019-03-18 21:03:28 · 558 阅读 · 0 评论 -
一 、 Kafka知识点梳理
1、配置文件梳理 2、kafka文件存储机制 ##2-1、kafka文件存储基本结构 1)、在Kafka文件存储中,同一个topic下有多个不同partition,每个partition为一个分区,partiton命名规则为topic名称+有序序号,第一个partiton序号从0开始,序号最大值为partitions数量减1。 2)、每个partion(分区)相当于一个巨型文件被平均分配到多个大...原创 2020-06-18 11:31:49 · 481 阅读 · 0 评论