
hadoop
sh_qd
这个作者很懒,什么都没留下…
展开
-
fsimage开启压缩
当一个hdfs集群比较大的时候,fsimage过大,会导致主备集群之间的复制流量过大,需要开启压缩。vim hdfs-site.xml<property> <name>dfs.image.compress</name> <value>true</value></property><property&...原创 2019-12-23 11:43:25 · 416 阅读 · 0 评论 -
hadoop2.6的datanode多存储硬盘设置数据副本存放策略
集群中每台机器使用12块硬盘,部分节点少数盘使用率超过90%,其它盘只有80%,即所有盘使用不均衡,如果不做特殊设置,一台机器整体使用空间还有的情况下,部分磁盘可能已经100%了。如何避免这个问题?在hadoop2.6中,datanode数据副本存放磁盘选择策略有两种方式:第一种是沿用hadoop1.0的磁盘目录轮询方式:RoundRobinVolumeChoosingPolicy第二种是...原创 2019-10-22 10:22:01 · 626 阅读 · 0 评论 -
ranger部署
Ranger部署1.修改初始化配置文件 :sudo su - appcd /data/users/app/ranger-adminvim install.properties2.mysql授权#my 3306>create databaseranger_audit_db;>create databaseranger_db;>grant...原创 2019-10-18 11:18:20 · 661 阅读 · 0 评论 -
Hadoop datanode节点退役遇到的坑
问题描述:当前集群7台机器,需要退役掉其中的3台,退役了一天,发现block数不变,于是查看namenode日志,发现以下信息:2019-10-17 17:29:25,177 WARN org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicy: Failed to place enough replicas, s...原创 2019-10-17 19:59:14 · 2484 阅读 · 1 评论 -
Hadoop2.6 Balance运行速度优化
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。 随着HDFS集群规模的不断增大,默认的配置参数,不能满足快速balancer的要求,需要对参数进行调优。一、修改hdfs-...原创 2019-08-14 17:59:44 · 570 阅读 · 0 评论 -
Yarn resourcemanager运维记录
Yarn resourcemanager运维记录:sudo su - huseryarn-daemon.sh stop resourcemanager;yarn-daemon.sh start resourcemanager主resourcemanager重启时会自动进行主备切换,切换后,spark thriftserver要重启。如果调整了capacity-schedule...原创 2019-08-01 10:45:51 · 360 阅读 · 0 评论 -
Hadoop slave节点下线
yarn下线nodemanager #登录master节点,切换到huser用户 ssh$master sudosu- huser #如果yarn-site.xml配置文件里搜索不到exclude关键字,需要更新配置文件,支持yarn.exclude。 cd/opt/hadoop/etc/hadoop svn up ...原创 2019-07-22 12:00:37 · 609 阅读 · 0 评论 -
yz-ycsb压测hbase记录
环境准备数据准备:usertable 100 个region 并灌入数据。 hbase shell>n_splits=100 hbase shell> create 'usertable',{NAME=>'cf',DATA_BLOCK_ENCODING=>'DIFF',COMPRESSION=>...原创 2019-08-02 18:18:36 · 447 阅读 · 0 评论 -
解决hadoop2.6.5一台机器多块盘存储不均问题
在hadoop2.6.5,datanode数据存储盘选择策略有两种方式复制:首先是要遵循hadoop1.0磁盘文件夹投票,实现类:RoundRobinVolumeChoosingPolicy.java另外一种是选择可用空间足够多的磁盘方式存储,实现类:AvailableSpaceVolumeChoosingPolicy.java选择策略相应的配置项是: <property...原创 2019-04-08 16:18:26 · 753 阅读 · 0 评论 -
Hadoop集群部署重要步骤记录
一、角色规划Hadoop集群机器命名规范如下,假如有3台机器,角色混部。ser001 ser002 ser0031.Namenode、Resourcemanager、zkfc部署到机器名末位是1和2的两台机器;2.JournalNode和Zookeeper部署到机器名末位是1、2、3的三台机器;3. Datanode、Nodemanager部署到所有节点。4.给前三...原创 2019-02-12 20:36:31 · 844 阅读 · 0 评论 -
dr.elephant启发式算法详解
Metrics测量指标1. Used ResourcesJob使用资源的数量,单位是:GB Hours计算方式我们将任务的资源使用定义为:所有mapper任务和所有reducer任务的资源使用的总和。例如:有如下的job:4 mappers with runtime {12, 15, 20, 30} mins.4 reducers with runtime {10 ...转载 2018-10-11 18:38:29 · 886 阅读 · 0 评论 -
dr.elephant环境搭建及使用详解
Dr.elephant是一款对hadoop、Hive和Spark任务进行性能监控和调优的工具,它由LinkedIn的团队于2016年开源。一、环境搭建整体环境:dr.elephant 2.0.13, hadoop 2.6.5, spark 2.2.31.jdk8安装2.play framework安装1)play framework下载解压下载Play,在页面的最下部找到安...原创 2018-10-11 18:32:19 · 1494 阅读 · 1 评论 -
hadoop datanode节点硬盘故障下线及上线方法
以/dev/sdg1磁盘故障为例:/dev/sdg1 1.9T 1.4T 440G 77% /disk61.下线坏盘,直接umount,但一个集群同一时间段只能下线一台机器,否则有丢数据的风险。sudo umount /disk62. 提交硬盘维修,维修好后重新上线3. 判断是否该盘是否格式化sudo fdisk -原创 2017-06-19 22:14:53 · 2824 阅读 · 0 评论