
Hadoop生态圈
文章平均质量分 92
大数据基础概念
杨林伟
一个人走到何种境地,全都因为自己!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
保姆级教程:docker下安装CDH(单机版)
超详细讲解Docker下安装单机版CDH的完整流程原创 2024-02-20 20:24:18 · 2329 阅读 · 1 评论 -
梦想的流:Streampark功能期望与建议
对Streampark的一些功能期望与建议原创 2023-12-04 23:20:33 · 1821 阅读 · 2 评论 -
Clickhouse 入门(一篇就够了)
Clickhouse快速入门原创 2023-12-01 18:32:48 · 1972 阅读 · 0 评论 -
hadoop sdk 优化小结(裁剪、集成kerberos组件、定制等)
hadoop sdk优化、裁剪、集成kerberos组件、定制化等原创 2023-08-04 17:16:30 · 414 阅读 · 0 评论 -
浅谈图数据库
浅谈图数据库原创 2023-07-11 00:20:41 · 1542 阅读 · 0 评论 -
深入理解Java GSS(含kerberos认证及在hadoop、flink案例场景举例)
深入理解Java GSS,实现kerberos认证的方式,以及在hadoop和flink场景的使用原创 2023-07-07 23:30:00 · 2237 阅读 · 1 评论 -
快速入门Kerberos认证
kerberos认证快速入门原创 2023-06-19 20:00:00 · 1193 阅读 · 0 评论 -
从一个简单的命令阅读hadoop源码
从一个简单的“yarn application -kill”命令讲解了hadoop源码原创 2023-03-23 20:00:00 · 914 阅读 · 0 评论 -
JuiceFS分布式文件系统源码分析(Java层)
讲解了hadoop-common java api层面JuiceFS的实现流程原创 2022-11-07 23:30:00 · 1608 阅读 · 1 评论 -
JuiceFS-开源分布式文件系统入门(一篇就够了)
讲解`JuiceFS`的一些概念、架构以及实操的案例原创 2022-11-03 23:45:00 · 5671 阅读 · 1 评论 -
浅谈实时计算
浅谈实时计算,概念、Flink技术以及常见的解决方案参考。原创 2022-09-07 11:24:52 · 3428 阅读 · 0 评论 -
YARN REST API 总结
超详细总结YARN REST API’s原创 2022-09-01 19:17:17 · 3896 阅读 · 6 评论 -
MapReduce教程(01)- 初识MapReduce
文章目录01 引言02 MapReduce概述2.1 MapReduce定义2.2 MapReduce工作流程2.3 MapReduce流程对象2.3.1 InputFormat2.3.2 InputSplit2.3.3 RecordReader2.3.4 Mapper2.3.5 Combiner2.3.6 Partitioner2.3.7 Shuffle 和排序2.3.8 Reducer2.3.9 OutputFormat03 MapReduce原理图04 文末01 引言在前面的《Hive教程》,我们原创 2022-02-25 16:09:49 · 972 阅读 · 0 评论 -
Yarn队列租户配置教程(实践记录)
Yarn资源调度有三种策略,分别是:本文主要配置的是Fair Scheduler调度,即公平调度策略。目前版本默认使用的是Capacity Scheduler,因此需要指定调度策略,只要在yarn-site.xml原创 2022-07-07 18:09:08 · 1606 阅读 · 0 评论 -
YARN Capacity Scheduler容量调度器(超详细解读)
yarn主要有三种调度器,分别为FIFO、Capacity Scheduler和Fair Scheduler,其中Hadoop3.X默认的资源调度器是Capacity Scheduler,本文就来讲讲Capacity Scheduler容量调度器。容量调度器每个队列内部先进先出, 同一时间队列中只有一个任务在执行, 队列的并行度为队列的个数。Capacity Scheduler是一个hadoop支持的可插拔的资源调度器,它允许多租户安全的共享集群资源......原创 2022-07-07 10:31:25 · 4709 阅读 · 0 评论 -
yarn入门(一篇就够了)
是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成,如下图:ResourceManager(RM)主要的作用如下:NodeManager(NM)主要作用如下:ApplicationMaster(AM)作用如下:Container是yarn中的资源抽象,它封装了某个节点上的原创 2022-07-07 00:00:58 · 2455 阅读 · 2 评论 -
Spark入门(一篇就够了)
Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。尽管 相对于 而言具有较大优势,但 并不能完全替代 ,主要用于替代中的 计算模型。存储依然可以使用 ,但是中间结果可以存放在内存中;调度可以使用 内置的,也可以使用更成熟的调度系统 等。实际上,已经很好地融入了 生态圈,并成为其中的重要一员,它可以借助于 实现资源调度管理,借助于 实现分布式存储。此外, 可以使用廉价的、异构的机器来做分布式存储与计算,但是, 对硬件的要求稍高一些,对内存与 有一定的要求........原创 2022-06-30 17:47:12 · 72228 阅读 · 21 评论 -
hadoop安装教程(一次填完所有的坑)
hadoop安装教程,一次填完所有的坑原创 2022-06-07 17:56:58 · 24082 阅读 · 7 评论 -
CDH和CloudManager概述
CDH(Cloudra’s Distribution Apache Of Hadoop) 是集成多种技术的一个框架,是Apache Hadoop和相关项目的最完整,经过测试和最流行的发行版,它提供:灵活性:存储任何类型的数据并使用各种不同的计算框架进行处理,包括批处理,交互式SQL,自由文本搜索,机器学习和统计计算。集成:在可与广泛的硬件和软件解决方案一起使用的完整Hadoop平台上快速启动并运行。安全性:处理和控制敏感数据。可扩展性:启用广泛的应用程序并进行扩展,并扩展它们以满足您的要求。高可原创 2022-06-01 15:54:28 · 1099 阅读 · 2 评论 -
impala入门(一篇就够了)
Impala是一个MPP(大规模并行处理)SQL查询引擎,是一个用C ++和Java编写的开源软件;用于处理存储在Hadoop集群中大量的数据;性能最高的SQL引擎(提供类似RDBMS的体验),提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。原创 2022-06-01 14:37:03 · 24079 阅读 · 0 评论 -
MapReduce入门(一篇就够了)
文章目录01 引言02 MapReduce 概述2.1 MapReduce 定义2.2 MapReduce 产生缘由2.3 MapReduce与Yarn的关系2.4 MapReduce 中的序列化03 MapReduce 工作原理3.1 MapReduce 进程3.2 MapReduce 运行机制3.2.1 MapTask 并行度决定机制3.2.1.1 FileInputFormat切片机制3.2.1.2 FileInputFormat切片步骤3.2.2 MapTask 并行度调优3.2.3 ReduceT原创 2022-03-03 22:14:16 · 2529 阅读 · 0 评论 -
Sqoop入门(一篇就够了)
文章目录01 引言02 Sqoop概述2.1 Sqoop定义2.2 Sqoop功能2.3 Sqoop工作机制03 Sqoop安装3.1 Sqoop下载3.2 Sqoop配置3.3 Sqoop验证启动04 Sqoop导入导出4.1 Sqoop导入4.1.1 导入语法4.1.2 导入案例4.1.2.1 导入表数据到HDFS4.1.2.2 导入关系表到HIVE4.1.2.3 导入到HDFS指定目录4.1.2.4 导入表数据子集4.1.2.5 增量导入4.2 Sqoop导出4.2.1 导出语法4.2.2 导出案例0原创 2022-03-01 11:38:53 · 5025 阅读 · 0 评论 -
Hadoop入门(一篇就够了)
文章目录01 引言02 Hadoop概述2.1 Hadoop定义2.2 Hadoop优势2.3 Hadoop组成2.3.1 HDFS2.3.2 MapReduce2.3.3 YARN2.4 Hadoop工作方式2.4.1 Hadoop的主从工作方式2.4.2 Hadoop的守护进程03 Hadoop的安装04 Hadoop 高可用4.1 Hadoop高可用的解决方案4.1.1 ZooKeeper quorum4.1.2 ZKFC05 Hadoop 任务调度器5.1 FIFO 调度器5.2 容量调度器(Cap原创 2022-02-28 15:56:57 · 7624 阅读 · 4 评论