
hadoop
文章平均质量分 74
javastart
专注于大数据 AI
展开
-
Ambari HDP集群搭建全攻略
(就是一个开源的hadoop一键式安装服务)此外,Ambari能够安装安全的(基于Kerberos)Hadoop集群,以此实现了对Hadoop 安全的支持,提供了基于角色的用户认证、授权和审计功能,并为用户管理集成了LDAP和Active Directory。此外,Ambari能够安装安全的(基于Kerberos)Hadoop集群,以此实现了对Hadoop 安全的支持,提供了基于角色的用户认证、授权和审计功能,并为用户管理集成了LDAP和Active Directory。(说白了就是可以偷好多懒)转载 2023-01-12 10:32:24 · 601 阅读 · 0 评论 -
HDFS inotify:Linux inotify机制在HDFS中的实现
在文件系统的使用中,在某些场合我们往往会有这样一个需求点:我们想对某个文件/目录进行事件监听,监听的事件包括在目标目录下新增文件了,又或者说是删除了什么文件等等.这其实是对目标文件目录数据的一个比较实时的监控.我们比较传统的方案是去做定期的全盘扫描,然后算出增量值与最新统计值.这种方式的优点是实现简单,但是缺点也很明显,就是太低效了.那么在目前现有的Linux操作系统中,是否有这样的一套event事件通知机制呢?前者实现起来不好把控,后者的读取方式会有数据延时的问题.转载 2022-12-18 15:42:59 · 283 阅读 · 0 评论 -
大数据集群修改服务器ip
因为下周要对大数据开放式平台的服务器进行机房搬迁,开放式平台有90台物理机,其中24台服务器是后来扩容新增的,ip段为19.126.66.*,与另外一个集群共用了同一个网段。根据机房的物理部署规划,搬迁是要对同一个网段批量进行的,因此在搬迁前需要对这24台服务器的ip进行修改。修改ip的变更本周四实施,因此今天在测试环境进行方案验证,对一台计算节点进行ip修改。修改/etc/ntp.conf文件中的146.32.19.254网关地址为新ip对应的网关146.32.18.254,并重启ntp服务。原创 2022-11-01 11:04:20 · 1278 阅读 · 0 评论 -
hdfs集群数据迁移/DataNode节点维护/集群重命名--小结
2.切换DataNode的ip的情况,停止DataNode节点,修改ip地址,然后启动DataNode即可,只要我们能及时的启动切换ip后的DataNode服务,整个集群的块复制操作就会极少,对集群的影响也很小,其实这种情况和新增另一个带有数据的DataNode相似,当集群发现原来ip的DataNode不可用时,集群准备开始进行数据块的拷贝操作,此时当加入了新ip带有数据块的DataNode时,集群发现这些数据块不需要在拷贝了,每个数据块的副本数直接满足要求了。三.集群的重命名操作。转载 2022-10-10 13:33:33 · 524 阅读 · 0 评论 -
分布式文件存储系统HDFS——DataNode
Datanode进程死亡或者网络故障造成Datanode无法与Namenode通信时,Namenode不会立即把该Datanode判定为死亡,要经过一段时间,这段时间称作超时时长。HDFS默认的超时时长为10分钟30秒。作为HDFS集群从节点,负责存储管理用户的文件块数据,并定期向Namenode汇报自身所持有的block信息(这点很重要,因为,当集群中发生某些block副本失效时,集群如何恢复block初始副本数量的问题)。2. Datanode掉线判断时限参数。1. 通过心跳信息上报参数。原创 2022-10-07 14:05:04 · 326 阅读 · 0 评论 -
CDH Yarn 调度资源指南
对于steady fair share,是一个静态值,是Yarn根据每个队列的minShare、maxShare和weight的配置计算得到的理论上应该分配给这个队列的最大资源,它与这个队列当前是否有app正在运行无关,只和我们在fair-scheduler.xml中的配置有关。Yarn中的steady fair share值和Instaneous Fair Share值都代表了当前分配给这个队列的最大资源值,也是队列在任何时候资源使用量不可以超过的值 ,但是他们存在区别。具体的任务只能挂在子池子上。原创 2022-09-19 09:22:27 · 1058 阅读 · 0 评论 -
CDH之HIVE-ON-SPARK、Spark配置
CDH之HIVE-ON-SPARK、Spark配置转载 2022-07-31 15:08:35 · 1241 阅读 · 0 评论 -
存储成本降低 80%,有赞数据中台成本治理怎么做的?
存储成本降低 80%,有赞数据中台成本治理怎么做的?转载 2022-07-27 18:41:53 · 609 阅读 · 0 评论 -
Hadoop YARN中web服务的REST API介绍
Hadoop YARN中web服务的REST API介绍转载 2022-07-25 19:03:47 · 825 阅读 · 0 评论 -
YARN环境中应用程序JAR包冲突问题的分析及解决
YARN环境中应用程序JAR包冲突问题的分析及解决转载 2022-07-17 10:18:58 · 867 阅读 · 0 评论 -
yarn(cdh)中的虚拟cpu和内存
yarn(cdh)中的虚拟cpu和内存原创 2022-07-16 18:34:56 · 1471 阅读 · 0 评论 -
YARN 运维、巡检、监控、调优、排障
YARN 运维、巡检、监控、调优、排障转载 2022-07-10 19:26:38 · 1557 阅读 · 0 评论 -
YARN 内存参数终极详解
YARN 内存参数终极详解转载 2022-07-10 19:18:35 · 919 阅读 · 0 评论 -
hadoop的yarn容器、内存、vcore设计
hadoop的yarn容器、内存、vcore设计原创 2022-07-10 16:14:06 · 1946 阅读 · 0 评论 -
关于yarn.nodemanager.vmem-pmem-ratio的通俗解释
yarn.nodemanager.vmem-pmem-ratio转载 2022-07-10 11:25:55 · 428 阅读 · 0 评论 -
hadoop 性能文档资料
hadoop 性能文档资料原创 2022-07-10 10:35:50 · 219 阅读 · 0 评论 -
在有Sentry控制下的CDH中部署Hive的UDF
在有Sentry控制下的CDH中部署Hive的UDF原创 2022-07-01 18:17:44 · 243 阅读 · 0 评论 -
大数据架构师一定要弄清楚Fair Scheduler和Capacity Scheduler调度器
大数据架构师一定要弄清楚Fair Scheduler和Capacity Scheduler调度器转载 2022-06-29 18:20:42 · 264 阅读 · 0 评论 -
CDH集群之YARN性能调优
CDH集群之YARN性能调优转载 2022-06-25 18:23:55 · 566 阅读 · 0 评论 -
什么是公平调度器(Fair Scheduler)
公平调度器原理转载 2022-06-17 17:42:32 · 299 阅读 · 0 评论 -
Hive on Tez Mapper 数量计算
Hive on Tez Mapper 数量计算转载 2022-06-12 17:10:46 · 623 阅读 · 0 评论 -
CDH 生产环境: NameNode is not formatted问题处理
背景因升级JN节点,需要将JN迁移到其他机器,该节点有三台在迁移过程中我迁移其中一台。在HDFS页面进行角色迁移,选择当前角色机器和目标机器,提示需要重启整个集群(前提是需要确保是否有人员在使用)。重启后出现错误导致HA中Master无法启动错误信息引导备用 NameNodeFailed to bootstrap Standby NameNode NameNode (cluster-master): STARTUP_MSG: build = http://github.com/clou..原创 2022-03-25 18:12:54 · 1856 阅读 · 0 评论 -
【无标题】
在执行hdfs的fsck时超时Read timed outhdfs fsck timeout问题处理Exception in thread "main" java.net.SocketTimeoutException: Read timed out at java.net.SocketInputStream.socketRead0(Native Method) at java.net.SocketInputStream.socketRead(SocketInputSt...转载 2022-03-16 15:14:14 · 332 阅读 · 0 评论 -
Hadoop3数据容错技术(纠删码)
背景随着大数据技术的发展,HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性,HDFS通过多副本机制来保证。在HDFS中的每一份数据都有两个副本,1TB的原始数据需要占用3TB的磁盘空间,存储利用率只有1/3。而且系统中大部分是使用频率非常低的冷数据,却和热数据一样存储3个副本,给存储空间和网络带宽带来了很大的压力。因此,在保证可靠性的前提下如何提高存储利用率已成为当前HDFS面对的主要问题之一。Hadoop 3.0 引入了纠删码技术(Erasure Coding),它可以提高..转载 2021-11-05 18:06:55 · 1862 阅读 · 0 评论 -
京东 HDFS EC 应用解密
为了实现降本增效,京东HDFS 团队在 EC 功能的移植、测试与上线过程中,基于自身现状采取的一些措施并最终实现平滑上线。同时自研了一套数据生命周期管理系统,对热温冷数据进行自动化管理。在研发落地过程中还构建了三维一体的数据校验机制,为 EC 数据的正确性提供了强有力的技术保障。本文详细介绍在研发一个复杂系统时,如何基于实际情况进行取舍,并确立行动准则。在功能上线过程中,要保持对线上系统的敬畏,确保上线与回滚不会导致元数据损坏。此外,要深刻认识系统的核心职责,对于存储系统务必加强技术保障,确保数据的安全转载 2021-09-27 14:52:08 · 205 阅读 · 0 评论 -
Sentry 授权
文章目录前言一、架构概述1.Sentry 组件2.主要概念3.User身份和Group映射4.基于roles的访问控制5.统一授权 二、Sentry与Hadoop生态系统的集成1.Hive and Sentry2.Impala and Sentry2.Sentry-HDFS同步3.Search and Sentry4.Authorization Administration1.Disabling Hive CLI2.使用Hue管理Sentry 权限 总结前言sentry是Hadoo...转载 2021-08-26 16:13:45 · 1003 阅读 · 0 评论 -
Apache sentry架构分析-(与hive、hdfs集成)
Apache sentry架构分析-(与hive、hdfs集成)本文链接:https://blog.youkuaiyun.com/hongtaq156136/article/details/88035573前言Apache Sentry是Cloudera公司发布的一个Hadoop开源组件,它提供了细粒度级、基于角色的授权以及多租户的管理模式。类似的安全管理框架还有Hortonworks公司开源的Apache Ranger。通过引进Sentry,Hadoop目前可在以下方面满足企业和政府用户的RBAC转载 2021-08-26 15:37:47 · 962 阅读 · 0 评论 -
如何在HDFS hadoop中从blockName中找到文件(how to find file from blockName in HDFS hadoop)
痛苦的方式,假设你已经读取了所有文件的访问权限(并且执行目录):$ p $ hadoop fsck / -files - 块| grep blk_520275863902385418_1002 -B 20然后从块匹配扫描回上一个文件名: /hadoop/mapred/system/jobtracker.info 4个字节,1个块:OK 0. blk_520275863902385418_1002 len = 4 repl = 1 在这种情况下blk_5202 ...是...转载 2021-08-23 19:09:03 · 880 阅读 · 0 评论 -
HDFS HA namenode 迁移资料汇总
近期在在测试namednode 迁移方案,开始不清楚怎样迁移,就自己猜想直接删除namenode 和停止zkfc,结果看了一些资料,进行恢复,收集汇总在一起方便以后使用。其实cdh 可以采用直接迁移角色的方式进行https://blog.youkuaiyun.com/hadoop_sc/article/details/103561984https://www.cnblogs.com/alannever/p/14015784.html...原创 2021-08-11 18:00:32 · 243 阅读 · 0 评论 -
hadoop在线平滑迁移NameNode
本文链接:https://blog.youkuaiyun.com/trips/article/details/102941441说明由于 hdfs 的 namenode 如果没有 active 的后,会导致 hdfs 整个集群不可用,所以迁移 namenode 还需要小心。 通过 hdfs ha 模式迁移 hdfs namenode,保证 hdfs 的高可用,本文以较常用的 hbase 作为上游来举例。 由于 zk 中存了 namenode 的 host name 与 ip,所以hostname不能变,只能改变ip转载 2021-08-10 16:05:58 · 649 阅读 · 0 评论 -
HDFS中ZKFailoverController的原理探究
自动化failover的引入HDFS中自动化的failover故障转移需要增加两个新的组件:一个是Zookeeper quorum(仲裁),另一个是ZKFailoverController进程(简称ZKFC)。Apache Zookeeper是一个高可用的服务,对于小规模数据协调,通知客户端数据变化,监控客户端失败。自动failover的实现是基于ZK以下的作用: Failure detection 集群中的每个NameNode机器在ZK上保持持久化会话。如果机器崩溃,ZK会话过期,...转载 2021-07-07 10:52:04 · 1028 阅读 · 0 评论 -
迁移 Cloudera Manager 节点 ,迁移Cloudera Scm Server端
目录1.迁移节点信息:212 -> 442.压缩存储目录,备份SCMServer数据3.在新服务器安装server端4.修改 cloudera-scm-server 配置文件5.解压恢复备份数据到新服务器指定配置的目录中6.修改所有agent节点的配置文件内容7.迁移ClouderaManagementService节点8.停止原有的server端与所有agent端,并启动新服务器的server端9.登陆新的ClouderaManager地址1...转载 2021-04-09 18:15:11 · 630 阅读 · 0 评论 -
HDFS慢节点监控及处理
本文链接:https://blog.youkuaiyun.com/pengzhouzhou/article/details/109664302版权HDFS集群随着使用时间的增长,难免会出现一些“性能退化”的节点,主要表现为磁盘读写变慢、网络传输变慢,我们统称这些节点为慢节点。当集群扩大到一定规模,比如上千个节点的集群,慢节点通常是不容易被发现的。大多数时候,慢节点都藏匿于众多健康节点中,只有在客户端频繁访问这些有问题的节点,发现读写变慢了,才会被感知到。因此,要想维护HDFS集群读写性能稳定,慢节点问...转载 2021-01-25 17:17:23 · 912 阅读 · 0 评论 -
0661-6.2.0-Hadoop数据备份与恢复
1 文档编写目的在Hadoop集群中,数据文件是以Block的方式存储在HDFS上,而HDFS上数据的名称,副本存储的地址等都是通过NameNode上的元数据来保存的。Hive的数据库和表的数据也是保存在HDFS中,而Hive的元数据metastore则保存在关系型数据库中。这些文件和数据如果丢失或者损坏,都会导致相应的服务不可用,Hadoop集群可以启用某些组件和服务的高可用或者备份,来应对可能出现数据损坏问题。但是在集群需要迁移,集群需要扩容或者缩容,或者其他情况,集群可能会面对数据安全风险的时候,转载 2020-11-13 16:33:03 · 797 阅读 · 0 评论 -
在启用了HDFS HA的集群误删了一个NameNode解决实践
在启用了HDFS HA的集群,2个NameNode节点上一般都会部署三个角色:NameNode,JournalNode和Failover Controller。在实际生产中,我们有时会碰到一个情况,你不小心删掉了某个NameNode节点上的所有角色包括NameNode,JournalNode和Failover Controller,或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点,然后你想再把这个节点加回去的时候,发现无论如何HDFS服务都没办法正常使用了。本转载 2020-09-21 15:13:21 · 1053 阅读 · 0 评论 -
linux pagecache限制与查看
原文链接:http://www.cnblogs.com/10087622blog/p/8191169.html在linux服务器使用过程中,由于linux对内存的使用原则是能cache就尽量cache,所以会出现pagecache占用很多的情况。suse的版本有一个pagecachelimit的功能,centos中没有看到。即便是将这个功能合入到centos中,也会发现设置了没效果的情况。cat /proc/sys/vm/pagecache_limit_mb 01.将0改为...转载 2020-06-19 17:59:38 · 2642 阅读 · 0 评论 -
HDFS异构存储实战
最近在做HBase跨机房的数据迁移,正好用到HDFS的异构存储,我们使用的场景是将WAL日志保存到SSD中,其他的数据则存储在普通的SATA盘中。既充分利用了本地SSD盘的空间,又达到了提升系统性能的目的。本文是对HDFS异构存储学习和使用的总结,以及对使用HDFS异构存储过程中遇到问题的总结,希望对广大技术网友有帮助。一、异构存储是什么所谓的异构存储就是将不同需求或者冷热的数据存储...转载 2020-04-19 21:59:11 · 962 阅读 · 0 评论 -
根据数据冷热程度分层存储,让HDFS更高效
摘要: 随着大数据技术相关技术的发展和普及,越来越多的公司开始使用基于开源Hadoop的平台系统,同时,越来越多的业务和应用也在从传统的技术架构迁移到大数据平台上。在典型的Hadoop大数据平台中,人们使用HDFS作为存储服服务Hadoop一、背景随着大数据技术相关技术的发展和普及,越来越多的公司开始使用基于开源Hadoop的平台系统,同时,越来越多的业务和应用也在从传统的技术架...转载 2020-04-19 19:14:07 · 3680 阅读 · 0 评论 -
CDH6.2中capacity队列的分配
CDH6.2中capacity队列的分配配置:yarn.scheduler.capacity.root.queues转载 2020-01-06 14:46:03 · 587 阅读 · 0 评论 -
Sqoop源码分析(一) Eclipse调试Sqoop各种异常解决
1.ERROR tool.ImportTool: Encountered IOException running import job: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory /tmp/datas/sqoop already exists at org.apache.hadoop.mapr转载 2016-01-18 15:27:58 · 2611 阅读 · 0 评论