
hadoop
文章平均质量分 57
江畔独步
这个作者很懒,什么都没留下…
展开
-
flume-ng启动报错: java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration
java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configurationflume-ng 启动后错误如下:flume配置flume数据ETL配置文件:原因分析启动flume的serve上没有安装hadoop, 没有配置hadoop的环境变量.导致flume启动时无法查找到所需的hadoop依赖.export HADOOP_HOME=/home/hadoop/apps/hadoop-2.6.5export PATH=PATH:PATH原创 2022-07-10 22:02:16 · 2079 阅读 · 0 评论 -
Hadoop3集群启停脚本
Hadoop 集群启动、停止脚本hadoop-switch.sh#!/bin/bashif [ $# -lt 1 ]then echo "Please type parameter like <start> or <stop>" exit ;ficase $1 in "start") echo " ================= 启动 Hadoop集群 =================" e原创 2022-05-02 23:00:15 · 170 阅读 · 0 评论 -
Hadoop新增节点后HDFS数据均衡操作
前置设置: 数据均衡带宽优化#参数说明:设置balance工具在运行中所能占用的带宽,需反复调试设置为合理值, 过大反而会造成MapReduce流程运行缓慢#CDH集群上默认值为10M, 案例中设置为1Ghdfs dfsadmin -setBalancerBandwidth 104857600 CDH集群默认值:Hadoop集群节点间的数据均衡hadoop_hdfsdata_rebalancer.sh 清单:nohup hdfs balancer \ -D "dfs...原创 2021-11-09 17:28:24 · 4290 阅读 · 1 评论 -
CDH5.x集群在新节点上分配角色
以下以Hadoop集群加入3台新节点为例,说明如何在其上进行角色的分配.假如新节点的IP与hostname对应关系如下:编号IP主机名1111.111.111.111dn9.hadoop.com2111.111.111.112dn10.hadoop.com3111.111.111.113dn11.hadoop.com一. 添加角色1.进入Cloudera Manager主页.2.点击集群HDFS组件最右侧的倒三角图标, 之后点击菜单中的"实例"选项原创 2021-11-09 16:21:15 · 2209 阅读 · 0 评论 -
Hadoop HDFS本地存储目录结构解析
HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml中配置的dfs.namenode.name.dir和dfs.namenode.data.dir。一、NameNodeHDFS metadata主要存储两种类型的文件1、fsimage记录某一永久性检查点(Check原创 2021-10-13 11:07:30 · 4763 阅读 · 0 评论 -
一些awesome网站
1、zabbix、ansible、nginx朱双印个人日志原创 2020-03-10 10:41:09 · 856 阅读 · 1 评论 -
CDH集群日志定时清理脚本
脚本功能:实现对CDH版本中 hadoop-yarn、 hadoop-hdfs、hive、oozie日志的定时清理。#!/bin/bash## 01-Handle logic of clean YARN RESOURCEMANAGER & NODEMANAGER logs.########################################################su - yarn -c ' YARN_PATH=/var/log/hadoop-y原创 2021-06-03 11:12:04 · 578 阅读 · 0 评论 -
设置Hadoop的执行用户
一. 背景在Hadoop集群中执行一些程序( 如Hive / MapReduce / Oozie )时, 如果没有根据集群hdfs的所属用户及用户组, 做合理的设置的话, 则在读取或向HDFS写入数据的时候会报一些莫名其妙的权限错误.二. 典型案例 向HDFS写xls数据文件,因权限问题报错三. 问题根源应用程序会尝试获取 ${HADOOP_USER_NAME}环境变量, 并将其作为Hadoop的默认执行用户; 而如果未获取到该变量, 则程序会调用系统的 whoami 命令来获取当前用户是原创 2021-01-06 19:12:39 · 7682 阅读 · 0 评论 -
yarn application 命令列表
一、yarn application 命令概览命令参数说明-appStates Works with -list to filter applications based on input comma-separated list of application states. The valid application state can be one of the following:ALL,NEW,NEW_SAVING,SUBMITTED,ACCEPTED,RUNNING,FIN原创 2020-12-07 10:27:35 · 5601 阅读 · 0 评论 -
IDEA构建Yarn运行环境
本地连接hadoop yarn环境进行本地开发非常方便, 免除了开发一段代码, 打包部署到Linux开发环境去调试这一段的麻烦. 本文尝试将作者实验通过的一种方式做一下记录.方法一:整体目录结构:A). pom.xml 清单<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XML.原创 2020-11-26 11:19:13 · 5396 阅读 · 0 评论 -
Hadoop HA namenode 活动节点迁移
这里写自定义目录标题一. 官网关于 "活动节点迁移" 的介绍二. 获取 namenode 角色状态三. namenode active节点角色切换一. 官网关于 “活动节点迁移” 的介绍haadminUsage:hdfs haadmin -checkHealth hdfs haadmin -failover [–forcefence] [–forceactive] hdfs haadmin -getServiceState hdfs haadmin -help hdfs haadm原创 2020-06-17 11:53:44 · 965 阅读 · 0 评论 -
Hadoop3 Safemode
集群环境:CHD: 6.1Environment : MYTESTOS : CentOS Linux release 7.7.1908 (Core)ROLE: 1NN, 5DN问题症状打开CM, 发现hdfs组件飘红, 点进去后发现集群处于safemode状态.于是,打开dfshealth健康检查页面(注意hadoop3之前为50070, hadoop3之后为9870)查看后, ...原创 2020-03-26 11:12:05 · 766 阅读 · 0 评论 -
yarn application命令介绍
yarn application1、-list 列出所有 application 信息示例:yarnapplication -list2、-appStates <States>跟 -list 一起使用,用来筛选不同状态的 application,多个用","分隔;所有状态:ALL,NEW,NEW_SAVING,SUBMITTED...转载 2019-12-19 11:12:16 · 867 阅读 · 0 评论 -
Centos7 安装部署 CDH6.1.0 手册
目录一、CDH6简介 4CDH6支持的组件列表: 4二、CDH6安装前环境准备 51、CM6.1.0以及CDH6.1.0的安装: 52、CM & CDH Parcel包准备 53、创建CM & CDH组件存储库 64、 在主节点配置CDH6.1.0二进制Parcel仓库 65、 配置yum仓库 66、每台服务器进行系统环境设置: 7A).安装...原创 2019-08-05 11:37:52 · 2222 阅读 · 0 评论 -
fuse_dfs挂载HDFS到本地
背景:希望通过挂载方式,能够像使用本地文件系统一样,访问与操作hdfs数据。同时为容灾,可以考虑进行hdfs的数据备份。以下操作依赖hadoop3.x源码项目提前编译好:传送门:编译apache hadoop3.0.2一、构建工具包构建一个fuse_dfs_tools工具包,后续将使用该工具包进行hdfs与本地磁盘的挂载。工具包目录结构如下:f...原创 2019-06-26 14:03:15 · 1621 阅读 · 0 评论 -
[转载]hadoop datanode 节点重启步骤
原文出处:http://blog.youkuaiyun.com/chenyi8888/article/details/7564943对于datanode可以在master中配置,然后在maste启动的时候,一并去启动这些节点 。对于死掉的节点,也可以通过以下命令启动 。重启挂掉的节点,进入到 挂掉的机器 bin/hadoop-daemon.sh startdatanode //转载 2014-02-19 10:37:54 · 2908 阅读 · 0 评论 -
Hadoop YARN架构设计要点
YARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已经是一个更加通用的资源管理系统,可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上,通过YARN来管理资源。如果你的应用程序也需要借助YARN的资源管理功能,你也可以实现YARN提供的编程API,将你的应用程序运行于YARN之上,将资源的分配转载 2016-11-16 11:33:21 · 572 阅读 · 0 评论 -
HADOOP Java API 之 HDFS2.x操作
Java api操作hdfs2.x, 主要包括以下几个方法: 1. create dir2.1 create file(don’t use IOUtils)2.2 create file(use IOUtils)3. upload local file(s)4. rename file(s)5. rename file(s)6. scan dirs and file informati原创 2016-11-14 17:43:10 · 1315 阅读 · 0 评论 -
hue3.9 集成 hive1.1.0
hue3.9 中集成 hive1.1.0数据仓库, 主要包括hive端的配置, 和hue端的配置, 和hadoop端的配置三部分.1. hive端配置(mysql 做 metastore) a). 删除掉 hadoop mapreduce lib目录下的jline jar包, 将hive lib库下的jline jar包拷贝过去. b). hive lib目录下添加mysql的驱动包.原创 2016-12-01 18:06:59 · 1190 阅读 · 1 评论 -
MapReduce实现大矩阵乘法
版权声明:本文为原博主原创文章,未经原博主允许不得转载。目录(?)[+]引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月转载 2016-11-21 19:07:24 · 442 阅读 · 0 评论 -
hadoop中MapReduce多种join实现实例分析
原文出处: http://zengzhaozheng.blog.51cto.com/8219051/1392961一、概述 对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,转载 2016-11-25 16:53:40 · 1126 阅读 · 0 评论 -
mariadb 重置密码
郁闷,ubuntu以命令行方式mariadb,安装过程中并未出现输入root用户的界面,安装完mariadb,不知道root用户密码,以root身份登陆报如下错误:david@david-pc:~$ mysql -uroot -pEnter password: ERROR 1045 (28000): Access denied for user 'root'@'localhost' (原创 2017-01-10 11:51:02 · 8240 阅读 · 0 评论 -
[解决]java.io.IOException: Cannot obtain block length for LocatedBlock
原文出处:https://blog.youkuaiyun.com/odailidong/article/details/51420701,致谢 在hadoop测试集群运行job的过程中发现部分运行失败,有Cannot obtain block length for LocatedBlock,使用hdfs dfs -cat ${文件}的时候也报这个错,看过代码后发现是文件未被正常关闭(flume传到hd...转载 2018-07-12 19:49:36 · 789 阅读 · 0 评论 -
[转]Quorum JournalNode作用(hadoop1.x与hadoop2.x对比)
转载自:https://blog.youkuaiyun.com/bocai8058/article/details/78843608致谢,如转载请附上原文出处.文章目录概述hadoop 1.x与2.x针对性对比硬件资源要求概述HA(High Available),高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。两个NameNode为了数据同步,会...转载 2019-01-01 11:13:44 · 228 阅读 · 0 评论 -
CDH集群间数据迁移
工作中,需要进行不同集群间数据迁移(这里演示CDH5-&gt;CDH6),迁移分为2个步骤:1、库、表shema迁移2、数据迁移一、库、表schema迁移核心思想主要是构建建库、建表语句,传统数据仓库大概都会有stage、ods、dw、dm、default等数据分层体系。于是考虑使用shell脚本,将所有库及其下的表导出一份,然后再通过sed、awk或编辑软件的猎魔师制作建表语句。①、...原创 2019-02-15 11:40:16 · 4527 阅读 · 0 评论 -
hadoop修改副本数:setrep
命令格式:hadoop fs -setrep [-R] [-w] 参数说明:-R:(等待副本复制完成)-w:(向后兼容)-rep:numReplicas-path:希望进行副本数调整的hdfs路径来自官网的说明:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemS...原创 2019-06-13 12:07:44 · 3565 阅读 · 2 评论 -
编译apache hadoop3.0.2
编译apache hadoop3.0.20、软件准备1、编译环境准备1.1 maven配置1.2 protobuf编译安装1.3 CMake3安装1.4 编译aws模块找不到依赖Jar包2、开始编译2.1 编译命令2.2 编译结果0、软件准备JDK1.8apache-maven-3.6.1(needs 3.3+)hadoop-3.0.2-src 源码(下载地址:https://mirro...原创 2019-06-25 19:50:53 · 866 阅读 · 1 评论 -
【转】hive中的LEFT SEMI JOIN
LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。转载 2013-12-12 17:23:15 · 456 阅读 · 0 评论