
hadoop
hadoop
阿啄debugIT
0、精通java,及常用设计模式,熟练编写shell脚本,掌握python、scala、golang的编写;
1、精通Spring Cloud等微服务架构,掌握SpringBoot、batis等后端技术,kafka、redis、es等中间件的整合开发;
2、熟悉掌握mysql、pg等关系数据的原理及调优,及NoSQL数据的存储和查询;
3、熟悉CDH各个组件,及精通离线、实时等计算技术;
4、掌握java多线程高并发编程,及整合shiro、redis、fastdfs、MQ、netty等开发;
5、熟悉K8S集群管理Docker容器,及理解掌握openstack原理和操作。
展开
-
在CDH中,基于Kerberos与Sentry组件,通过Navigator审计日志,查看对应用户的操作
前言CDH集群中有数据管理的组件Cloudera Navigator,本文档主要介绍这个组件的其中一个功能:审计,Cloudera Navigator审计可以从选定的集群服务收集一些事件,用户可以在控制台查看这些审计的日志,可以使用可配置的过滤器进行搜索,快速得到相关的信息,并且可以将这些信息导出为CSV或JSON文件。下面会对审计功能的使用进行一些测试。环境准备集群的环境为CDH6.2.0集群服务器的OS版本为RedHat7.2具体操作1.集群已启用Kerberos2.集群已原创 2020-12-02 13:13:01 · 619 阅读 · 0 评论 -
CDH新增计算节点,并对新增的计算节点,添加服务角色的详细具体步骤
前言最近发现,公司的的大数据环境,空间有不足的情况,集群的计算能力也下降, 此时需要对将大数据的集群环境进行扩容 增加计算节点。操作步骤集群示意图:准备好linux环境配置hadoop账号,ssh免密,关掉防火墙,磁盘挂载1:创建hadoop账号useradd hadoop2:ssh无密码登陆su hadoopssh-keygen -t rsa#复制到所有datanode,并测试ssh登陆cp id_rsa.pub authorized_key3:配置h原创 2020-10-07 22:21:39 · 1826 阅读 · 2 评论 -
基于K8S,spark访问hadoop集群的共享层hive表数据历险记
前言由于Spark的抽象设计,我们可以使用第三方资源管理平台调度和管理Spark作业,比如Yarn、Mesos和Kubernetes。基本原理基本原理当我们通过spark-submit将Spark作业提交到Kubernetes集群时,会执行以下流程:Spark在Kubernetes pod中创建Spark driver Driver调用Kubernetes API创建executor pods,executor pods执行作业代码 计算作业结束,executor pods回收并清理原创 2020-07-07 10:52:14 · 2094 阅读 · 0 评论 -
在CDH集群中,添加新的CDH节点导致数据丢失问题解决记录
前言CDH节点操作,按理是可以动态添加,或减少的,但是在实际操作过程中,却不是这样,因为不管添加或减少数据节点,都会涉及到配置文件的变化,因此在添加或减少过后都需要做服务重启,才能使操作生效,而且没有操作快照,使问题操作或者误操作不能返回,这或许是开源产品的一个不足之处。问题在添加节点时,原数据节点(例:hadoopOld)的数据存储目录(/home/data/hadoop),和新数据节点(hadoopNew)的数据存储目录(/home/data/0)不同。在添加节点过程中,在原数据节点的数据原创 2020-07-02 16:50:04 · 2507 阅读 · 0 评论 -
Spark job提交时,spark-submit的主要参数的解析及建议
前言说spark之前,先提一下MapReduce: 最本质的两个过程就是Map和ReduceMap的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行过滤,或者任何的转换操作,这些一对一的元素转换就称作是Map; Reduce主要就是元素的聚合,就是多个元素对一个元素的聚合,比如求Sum等,这就是Reduce。Mapreduce是Hadoop1.0的核心,Spa...原创 2020-02-16 11:06:37 · 749 阅读 · 0 评论 -
Spark的性能优化案例分析(下)
前言Spark的性能优化案例分析(上),介绍了软件性能优化必须经过进行性能测试,并在了解软件架构和技术的基础上进行。今天,我们通过几个 Spark 性能优化的案例,看一看所讲的性能优化原则如何落地。如果你忘记了性能优化的原则,可以返回上一期复习一下。参考spark submit参数及调优https://www.cnblogs.com/haoyy/p/6893943.htmlSpark ...原创 2020-02-04 22:54:55 · 534 阅读 · 0 评论 -
Spark的性能优化案例分析(上)
前言现在最主流的大数据技术几乎都是开源的产品,不管是 Hadoop 这样的大数据存储与计算产品,还是 Hive、Spark SQL 这样的大数据仓库,又或者 Storm、Flink 这样的大数据流计算产品,还有 Mahout、MLlib 这样的大数据机器学习算法库,它们都来自开源社区。所以,我们在使用大数据、学习大数据的过程中肯定少不了要和开源社区打交道。一方面希望更深入、系统地了解软件性...原创 2020-02-04 21:51:06 · 1061 阅读 · 0 评论 -
对mapreduce分布式计算框架原理,进行完整流程分析
本文中大致的对mapreduce进行完整流程分析,map、reduce端的分析。一、 MapReduce 简介MapReduce源自google的一篇文章,将海量数据处理的过程拆分为map和reduce。mapreduce 成为了最早的分布式计算框架,这样即使不懂的分布式计算框架的内部运行机制的用户,也可以利用分布式的计算框架实现分布式的计算,并在hadoop上面运行。二、 设计思想...原创 2020-02-03 00:10:20 · 1253 阅读 · 0 评论 -
flume消费kafka出现的问题及解决方法
一、flume消费kafka的agent数量问题flume消费kafka到本地HDFS时不要使用太多主机和agent进程(一个agent),特别是MLTE_S6A_FS和2G数据的CITY_SHARE_GBIUPS_FS数据量比较小的topic(目前佛山集群使用5个agent进程,总共有15分partition),如果太多agent消费会导致很多小文件。s6a一个小时有20多G,属于比较少的数...原创 2020-02-02 04:14:38 · 2968 阅读 · 0 评论 -
shell脚本遍历redis集群所有节点日志,并入库到hadoop中,进行数据分析
shell脚本遍历redis集群所有节点,并入库到hadoop中的数据库中,进行数据分析,在此留存,以备他用[AAAAAAnilRedis@FXYY-FS-redis2 ~]$ cat /home/AAAAAAnilRedis/script/fetchRecord.sh#/bin/bashexport HADOOP_ROOT_LOGGER=INFO,consoledateUNLO...原创 2020-02-02 03:29:14 · 465 阅读 · 0 评论 -
基于docker容器,快速搭建hadoop+spark+hive+hbase集群的详细过程记录
1.安装docker参考:https://blog.youkuaiyun.com/as4589sd/article/details/1041402441.1.安装docker yum update -yyum -y install dockersystemctl start docker1.2.更改为公司本地镜像源,或者阿里镜像源vi /etc/docker/daemon.j...原创 2020-02-02 01:47:08 · 2269 阅读 · 0 评论 -
基于docker搭建hadoop+spark+hive+hbase集群的过程
目录1.安装docker 1.1.安装docker 1.2.更改为公司本地镜像源,或者阿里镜像源 1.3.设置为默认启动 1.4.重启docker,测试hello-world 1.5.安装docker-compose 1.6.关闭selinux 1.7下载各种安装包2.安装centos+jdk镜像3.安装hadoop...原创 2020-01-07 17:40:09 · 2825 阅读 · 0 评论