
CDH大数据平台
CDH大数据平台维护经验
只是甲
10年及以上金融信贷、通信行业数据库运维管理、数据仓库及大数据相关工作经验,持有Oracle OCP和Linux RHCE认证证书。
展开
-
CDH 升级pyspark带来的问题
文章目录一.问题描述二.解决方案2.1 删除spark2.2 重启整个集群2.3 重新添加spark服务一.问题描述最近在自学pyspark,想本地通过pycharm来编辑pyspark脚本,运行的时候,提示没有pyspark模块,于是通过pycharm安装了pyspark(最新版本)。而且这个安装到了远程服务器上,真的坑奈何我安装的是CDH 6.3.1版本,然后spark版本是 2.4.0-cdh6.3.1,然后最新版本是3.0.2的新的pyspak程序,都未记录到 History Serve原创 2021-06-11 14:12:10 · 6646 阅读 · 9 评论 -
CDH Host Monitor 启动失败
[root@hp1 ~]# cd /var/lib/[root@hp1 lib]# mv cloudera-host-monitor cloudera-host-monitor.bak[root@hp1 lib]#重启参考1.https://blog.youkuaiyun.com/qq_38855557/article/details/85684238原创 2021-03-15 18:22:39 · 1185 阅读 · 0 评论 -
CDH日志清理
备注:CDH 版本: 6.3.1背景CDH集群运行了2个多月了,根目录磁盘使用率接近80%了,需要清理CDH日志。一.查看问题CDH的日志文件一般在如下几个目录,可以通过如下代码进行查看。代码:cd /var/log/du -s ./* | sort -nrcd /var/lib/cloudera-service-monitordu -s ./* | sort -nrcd /var/lib/cloudera-host-monitordu -s ./* | sort -nr测试原创 2021-03-15 18:21:09 · 2589 阅读 · 4 评论 -
hive sql 卡在提交JOB
备注:Hive 版本 2.1.1文章目录一.问题描述二.问题解决2.1 首先想到的是重启大法2.1 查看正在执行的job三.验证参考一.问题描述之前开始归档,然后job卡住,我直接其它CTRL + C退出,后面运行mr job都卡在提交job的环节hive> select * from emp where empno = 7369;Query ID = root_20201224123252_93210ca3-928f-49e7-9cf4-d442d2a6ca3eTotal jobs原创 2021-03-12 16:49:29 · 1727 阅读 · 3 评论 -
CDH Error: Java heap space
备注:CDH 6.3.1文章目录一.问题描述二.解决方案2.1 调整HADOOP_HEAPSIZE2.2 调整 排序所使用的内存数量一.问题描述给一个大表创建索引的时候报错,Error: Java heap spacehive> > alter index ods_fact_sale_idx01 on ods_fact_sale rebuild;Query ID = root_20201218112050_83ecdecf-a0e5-4dfc-a1f6-30ed00f360原创 2021-03-12 16:47:49 · 774 阅读 · 0 评论 -
CDH Oozie web console is disabled
备注:CDH 6.3.1一.问题描述oozie web界面无法打开Oozie web console is disabled.二.解决方案cd /opt/cloudera/parcels/CDH/lib/oozie/libext/unzip ext-2.2.zip chown oozie:oozie -R ext-2.2重新访问UI,成功原创 2021-03-11 14:22:39 · 607 阅读 · 0 评论 -
CDH 丢失块及副本不足的块
备注:CDH 6.3.1文章目录一.问题描述二.解决方案2.1 丢失块查找2.2 解决oozie副本块不足的问题2.2.1 设置3个副本模式2.2.2 删除坏的块:参考一.问题描述如下图所示,刚安装的CDH,提示存在丢失块,也存在副本不足的块二.解决方案2.1 丢失块查找sudo -u hdfs hadoop fsck / -files -blocks测试记录:FSCK started by hdfs (auth:SIMPLE) from /10.31.1.123 for path /原创 2021-03-11 14:15:52 · 3633 阅读 · 0 评论 -
HDFS删除文件
一.删除HDFS上的文件需求:删除HDFS上的一个文件代码:-- 查看文件hadoop fs -ls /user/hive/warehouse-- 删除文件hadoop fs -rm /user/hive/warehouse/test.txt测试记录:[root@hp1 hue-httpd]# hadoop fs -ls /user/hive/warehouseFound 2 itemsdrwxrwxrwt - root hive 0 2020-11-25 19原创 2021-03-10 18:54:34 · 24179 阅读 · 0 评论 -
CDH yarn资源包问题
hive insert into语句报错:> insert into fact_sale(id,sale_date,prod_name,sale_nums) values (1,'2011-08-16','PROD4',28);Query ID = root_20201119163832_f78a095d-2656-4da6-825f-64127e84b8b4Total jobs = 3Launching Job 1 out of 3Number of reduce tasks is set原创 2021-03-10 18:52:17 · 716 阅读 · 0 评论 -
CDH文件权限问题
Hive执行语句的时候提示 /user权限不够hive> > select count(*) from fact_sale;Query ID = root_20201119152619_16f496b5-2482-4efb-a26c-e18117b2f10cTotal jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order to change t原创 2021-03-09 14:46:42 · 834 阅读 · 2 评论 -
CDH 6.3 大数据平台搭建
文章目录一.CDH概述二.安装CDH前准备2.1 环境准备2.2 安装前准备2.2.1 主机名配置(所有节点)2.2.2 防火墙及SeLinux配置(所有节点)2.2.3 NTP服务配置(所有节点)2.2.4 安装python(所有节点)2.2.5 数据库需求(主节点)2.2.6 安装JDK(所有节点)2.2.7 下载安装包(所有节点)2.2.8 安装MySQL的jdbc驱动(主节点)2.2.9 创建CDH源数据库、用户、amon服务的数据库(主节点)2.2.10 修改Linux swappiness参数(原创 2020-12-04 14:13:06 · 4757 阅读 · 3 评论 -
CDH 高可用
备注:测试版本 6.3.1文章目录一.HDFS HA1.1 启用HA1.2 设置备用的NameService1.3 选择备用的主机1.4 审核更改1.5 命令详细信息1.6 最后步骤1.7 重启后1.8 Hue 设置1.9 Hive 设置1.10 重启Impala二.YARN HA2.1 添加ResourceManager2.2 选择ResourceManager 所在主机2.3 启动新增的ResourceManager2.4 重启YARN三.Hive HA3.1 添加MataStore Server和原创 2020-12-08 14:32:14 · 1128 阅读 · 0 评论 -
CDH配置调整1
备注: 测试版本6.3.1文章目录一.概述二.调整2.1 ZooKeeper调整2.1.1 添加角色2.1.2 勾选hp2、hp3两个主机2.1.3 确认增加主机2.1.4 确认安装目录2.1.5 重启调整实例2.1.6 安装完成2.2 其它一.概述按照默认的配置 4个节点的CDH安装及配置完成后,居然存在一定的问题:不得不说,有这个管理界面的话,简直不要太方便,按照上面的指导直接进行调整即可二.调整2.1 ZooKeeper调整根据提示,ZooKeeper只安装在一个节点上了,要求最少安装原创 2020-12-07 13:45:39 · 759 阅读 · 0 评论 -
Cloudera Manager介绍
Cloudera Manager 是CDH 市场领先的管理平台。作为业界第一的端到端Apache Hadoop 的管理应用,Cloudera Manager 对CDH 的每个部件都提供了细粒度的可视化和控制,从而设立了企业部署的标准。通过Cloudera Manger,运维人员得以提高集群的性能,提升服务质量,提高合规性并降低管理成本。Cloudera Manager 设计的目的是为了使得对于企业数据中心的管理变得简单和直观。通过Cloudera Manager,可以方便地部署,并且集中式的操作完整的大数原创 2020-12-04 14:07:36 · 1152 阅读 · 1 评论 -
CDH官方文档
CDH相关学习资料,网上的太杂,还是以官方文档为主。文档总览:https://www.cloudera.com/documentation/enterprise/6/6.3.html官方api:https://www.cloudera.com/documentation/enterprise/6/6.3/topics/cloudera_manager.htmlcm管理:https://www.cloudera.com/documentation/enterprise/6/6.3/topics/c原创 2020-12-03 13:44:06 · 1304 阅读 · 0 评论 -
Hadoop大数据简介
一.Hadoop概述1.1 Hadoop简要概述我们生活在这个数据大爆炸的时代 ,很难估算全球电子设备中存储的数据总共有多少 。当前一个中小型公司的数据量也达到数十TB,甚至更多。有句话说得好 :“ 大数据胜于好算法 。” 意思是说对于某些应用 (譬如根据以往的偏好来推荐电影和音乐),不论算法有多牛 ,基于小数据的推荐效果往往都不如基于大量可用数据的 一般算法的推荐效果 。我们遇到的问题很简单:在硬盘存储容量多年来不断提升的同时,访问速 度(硬盘数据读取速度)却没有与时俱进 。第二个问题是大多数分原创 2020-12-01 14:53:11 · 15033 阅读 · 0 评论 -
Hadoop发行版本简介
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop的发行版除了有Apache hadoop外cloudera,hortonworks,mapR,华为,DKhadoop等都提供了自己的商业版本。商业发行版主要是提供了更为专业的技术支持,这对于大型企业更为重要,不同发行版都有自己的一些特点,本文就各发行版做简单对比介绍。对比版选择:DKhadoop发行版、cloudera发行版、hortonworks发行版。一.DKhado原创 2020-12-02 13:47:24 · 1585 阅读 · 0 评论