
cdh
文章平均质量分 73
cdh集群维护及安装
阿啄debugIT
0、精通java,及常用设计模式,熟练编写shell脚本,掌握python、scala、golang的编写;
1、精通Spring Cloud等微服务架构,掌握SpringBoot、batis等后端技术,kafka、redis、es等中间件的整合开发;
2、熟悉掌握mysql、pg等关系数据的原理及调优,及NoSQL数据的存储和查询;
3、熟悉CDH各个组件,及精通离线、实时等计算技术;
4、掌握java多线程高并发编程,及整合shiro、redis、fastdfs、MQ、netty等开发;
5、熟悉K8S集群管理Docker容器,及理解掌握openstack原理和操作。
展开
-
大数据常用的Lambda架构---实时架构处理流程与离线架构处理流程
前言对低成本,规模化的需求,促使人们开始使用分布式文件系统,例如 HDFS和基于批量数据的计算系统(MapReduce 作业),但是这种系统很难做到低延迟。用 Storm 开发的实时流处理技术,可以帮助解决延迟性的问题,但并不完美。其中的一个原因是,Storm 不支持 exactly-once 语义,因此不能保证状态数据的正确性,另外它也不支持基于事件时间的处理。有以上需求的用户,不得不在自己的应用程序代码中加入这些功能。后来出现了一种混合分析的方法,它将上述两个方案结合起来,既保证低延迟,原创 2021-05-25 21:46:23 · 3204 阅读 · 11 评论 -
项目中java连接cdh中的kafka报错java.io.IOException: Can‘t resolve address: node0X:9092的解决方案
问题docker 容器日志报java.io.IOException: Can't resolve address: node04:9092 at java.lang.Thread.run(Thread.java:748) [na:1.8.0_272] Caused by: java.nio.channels.UnresolvedAddressException: null at sun.nio.ch.Net.checkAddress(Net.java:104) ~[na:1.8.0_272原创 2021-02-07 18:48:47 · 1628 阅读 · 2 评论 -
在CDH中,基于Kerberos与Sentry组件,通过Navigator审计日志,查看对应用户的操作
前言CDH集群中有数据管理的组件Cloudera Navigator,本文档主要介绍这个组件的其中一个功能:审计,Cloudera Navigator审计可以从选定的集群服务收集一些事件,用户可以在控制台查看这些审计的日志,可以使用可配置的过滤器进行搜索,快速得到相关的信息,并且可以将这些信息导出为CSV或JSON文件。下面会对审计功能的使用进行一些测试。环境准备集群的环境为CDH6.2.0集群服务器的OS版本为RedHat7.2具体操作1.集群已启用Kerberos2.集群已原创 2020-12-02 13:13:01 · 619 阅读 · 0 评论 -
CDH新增计算节点,并对新增的计算节点,添加服务角色的详细具体步骤
前言最近发现,公司的的大数据环境,空间有不足的情况,集群的计算能力也下降, 此时需要对将大数据的集群环境进行扩容 增加计算节点。操作步骤集群示意图:准备好linux环境配置hadoop账号,ssh免密,关掉防火墙,磁盘挂载1:创建hadoop账号useradd hadoop2:ssh无密码登陆su hadoopssh-keygen -t rsa#复制到所有datanode,并测试ssh登陆cp id_rsa.pub authorized_key3:配置h原创 2020-10-07 22:21:39 · 1826 阅读 · 2 评论 -
ansible安装部署CDH集群,与手动安装部署CDH集群,及CM配置和用户权限配置
前言CDH大数据平台CDH是Cloudera发布的一个自己封装的Hadoop商业版软件发行包,里面不仅包含了Cloudera的商业版Hadoop,能够十分方便地对Hadoop集群进行安装,部署和管理,同时CDH中也包含了各类常用的开源数据处理与存储框架,如Spark,Hive,HBase等。部署Hadoop集群的时候,可以选择Cloudera Express免费版本。这个版本包含了CDH以及Cloudera Manager核心功能,提供了对集群的管理功能,比如自动化部署,中心化管理,监控,诊断功原创 2020-10-02 23:11:09 · 1067 阅读 · 0 评论 -
cloudera-manager-el6-cm5.7部署流程,及踩坑过程和解决方案
概述CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。安装文件准备CDH下载地址:http://a.原创 2020-06-26 17:19:33 · 1838 阅读 · 2 评论 -
Cloudera集群在运行中常见的问题,及解决方案
1、某台datanode机器启动不起来某台datanode机器启动不起来,报错信息如下具体问题Failed to analyze storage directories for block pool BP-177636967-192.168.2.14-1502791129465 java.io.IOException: BlockPoolSliceStorage.recoverT...原创 2020-02-21 13:23:42 · 809 阅读 · 0 评论 -
解决CDH内嵌Spark版本不支持spark-sql的方案
1.概述CDH内嵌Spark版本不支持spark-sql,因为cloudera在推自己的impala,但是有些场景需要用到Spark-sql时,比如Kylin企业版想要加快构建需要用到SparkSQL,大概的思路就是换jar包,很多资料,千篇一律是要加入hive&hivethriftserver重新编译源码再打成jar才能支持,其实我们只需要到官网去把编译好的spark包下下来,直接替...原创 2020-02-15 20:43:54 · 3023 阅读 · 0 评论