
hadoop
文章平均质量分 93
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
阿龙先生啊
懂点大数据运维, 会写两三行代码,自学了一些 docker, kubernetes。博客主要分享大数据、Linux、云原生相关知识。 目前职位大数据工程师,长远打算做个会敲代码的厨子。
展开
-
【DataSophon】DataSophon1.2.1服务组件开启 kerberos
DataSophon也是个类似的管理平台,只不过与智子不同的是,智子的目的是锁死人类的基础科学阻碍人类技术爆炸,而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务。原创 2024-07-04 09:26:03 · 11104 阅读 · 72 评论 -
【DataSophon】大数据服务组件之Flink升级
DataSophon也是个类似的管理平台,只不过与智子不同的是,智子的目的是锁死人类的基础科学阻碍人类技术爆炸,而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务。为设计出轻量级,高性能,高可扩的,可满足国产化环境要求的大数据集群管理平台。(1)一次编译,处处运行,项目部署仅依赖java环境,无其他系统环境依赖。原创 2023-12-17 13:12:13 · 15294 阅读 · 135 评论 -
【DataSophon】大数据管理平台DataSophon-1.2.1基本使用
DataSophon也是个类似的管理平台,只不过与智子不同的是,智子的目的是锁死人类的基础科学阻碍人类技术爆炸,而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务。原创 2023-12-16 13:31:55 · 3409 阅读 · 83 评论 -
【DataSophon】大数据管理平台DataSophon-1.2.1安装部署详细流程
DataSophon也是个类似的管理平台,只不过与智子不同的是,智子的目的是锁死人类的基础科学阻碍人类技术爆炸,而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务。原创 2023-12-14 08:39:47 · 12505 阅读 · 110 评论 -
【Hadoop】DataNode Decommision
Hadoop集群中管理员经常需要向集群中添加节点,或从集群中移除节点,例如:为了扩大存储容量,需要上线一个境界点,相反的,如果想要缩小集群规模,则需要解除节点,如果某些节点出现反常,例如故障率过高或者性能过于低下,则需要下线节点,在上线新节点(而且保证不关闭集群和不损害集群中某一天机器的数据节点数据块丢失情况下),我们需要采用以下方式来解决这些问题。若DN 的复制任务大于改值时,不会将其选为复制的源节点。每次复制的块的个数为 dn的个数* 该参数。进行复制任务分配时,单个DN 任务的最大值。原创 2022-02-27 18:48:08 · 1580 阅读 · 2 评论 -
【Hadoop】mapred-site.xml 配置详解
map task在执行到5%的时候就开始为reduce进行申请资源,开始执行reduce操作,reduce可以开始进行拷贝map结果数据和做reduce shuffle操作 -->-- 默认情况下,reduce是全部从磁盘开始读处理数据,如果这个参数大于0,那么就会有一定量的数据被缓存在内存并输送给reduce -->-- JVM 年轻代和老年代比例 新生代占1,老年代占 8,年轻代占整个堆内存的 1/9 -->-- MR AppMaster的Java opts ,默认是-Xmx1024m -->原创 2021-10-20 22:27:42 · 11464 阅读 · 6 评论 -
【Hadoop】core-site.xml配置文件详解
-- 一个逗号分隔的类名列表,他们必须继承于org.apache.hadoop.http.FilterInitializer,相应的过滤器被初始化后,将应用于所有的JSP和Servlet网页 -->但是这对小数据包是不利的。原创 2021-10-16 20:01:26 · 17077 阅读 · 0 评论 -
【Hadoop】hdfs-site.xml配置文件参数说明
-- 当全部DN被标记为脏DN的比率高于此阀值,停止不写数据到脏DN的策略,以免造成热点问题(有效的,可写的DN太少,压力太大), dfs.namenode.avoid.write.stale.datanode -->原创 2021-10-16 19:31:54 · 17062 阅读 · 0 评论 -
【数据治理】Apache Atlas元数据管理
为了增强可发现性和治理能力,Atlas 提供了一个业务分类界面,允许用户首先定义一组代表其业务域的业务术语,并将其与 Atlas 管理的元数据实体相关联。例如,将原始数据的 hive 表转换为存储某个聚合的另一个 hive 表的 ETL 过程可以是扩展过程类型的特定类型。在Atlas中查询某一个元数据对象时往往需要遍历图数据库中的多个顶点与边,相比关系型数据库直接查询一行数据要复杂的多,当然使用图数据库作为底层存储也存在它的优势,比如可以支持复杂的数据类型和更好的支持血缘数据的读写。原创 2020-08-05 09:43:56 · 14590 阅读 · 3 评论 -
HDP中 Ranger 整合Kerberos进行细粒度的权限访问控制
一、Ranger 权限问题1、 Ranger 是什么?ranger则是针对组件内的权限 ,比如HDFS的读写执行,Hive和Hbase的读写更新,yarn的队列资源使用权,目前ranger只支持 hdfs,hive,hbase,kafka,yarn等组件,针对于组和用户对资源的访问权限进行细粒度的控制。2、遇到的问题安装 Ambari 时安装了 Ranger 但是没有配置权限,所以出现了下面的问题:Error:Error while comiling statement: FAIL.原创 2020-07-07 22:40:20 · 4165 阅读 · 3 评论 -
Apache Griffin 安装与简介
目录一、Griffin简介二、安装部署2.1 依赖准备1、初始化2、Hadoop和Hive3、Scala 安装4、 ES的安装与启动2.2 源码打包部署一、Griffin简介数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资.原创 2020-06-03 17:01:29 · 5145 阅读 · 0 评论 -
【Hadoop】通俗易懂 Kerberos原理
Hadoop 使用Kerberos作为用户和服务的强身份验证和身份传播的基础。Kerberos 是一种计算机网络认证协议,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份。Kerberos 是第三方认证机制,其中用户和服务依赖于第三方(Kerberos 服务器)来对彼此进行身份验证。Kerberos服务器本身称为密钥分发中心或 KDC。原创 2020-05-26 11:38:54 · 5978 阅读 · 2 评论 -
【Haoop】Yarn(RM-AM-NM 三大组件的通信,任务提交搭到 Yarn 的过程,文件切片)
NodeManager是每个节点上的资源和任务管理器,它是管理这台机器的代理,负责该节点程序的运行,以及该节点资源的管理和监控。(2) AsM一般会返回一个新生成的全局ID,除此之外,传递的信息还有集群的资源状况,这样Client就可以在需要时请求资源来运行任务的第一个 container 即 AM。在上面(5)与(6)之间,AM在收到RM返回的container列表后,会与每个container所在机器的NM通信,来启动这个container,下面就说说这个过程。这个过程是AM向RM请求资源。原创 2020-04-11 16:56:41 · 6891 阅读 · 1 评论 -
CAP 定理的含义
分布式系统(distributed system)正变得越来越重要,大型网站几乎都是分布式的。分布式系统的最大难点,就是各个节点的状态如何同步。CAP 定理是这方面的基本定理,也是理解分布式系统的起点。本文介绍该定理。它其实很好懂,而且是显而易见的。下面的内容主要参考了 Michael Whittaker 的文章。一、分布式系统的三个指标1998年,加州大学的计算机科学家...原创 2020-02-16 18:23:27 · 386 阅读 · 0 评论 -
hadoop启动后 jps 查不到namenode的解决办法(日志报:ulimit -a for user root)
问题:hadoop启动后 jps 查不到namenodestart-dfs.sh[root@master ~]# start-dfs.shStarting namenodes on [master]master: starting namenode, logging to /usr/local/export/soft/hadoop-2.7.7/logs/hadoop-root-nam...原创 2019-09-25 16:34:50 · 7481 阅读 · 11 评论