
mapreduce
mapreduce
阿啄debugIT
0、精通java,及常用设计模式,熟练编写shell脚本,掌握python、scala、golang的编写;
1、精通Spring Cloud等微服务架构,掌握SpringBoot、batis等后端技术,kafka、redis、es等中间件的整合开发;
2、熟悉掌握mysql、pg等关系数据的原理及调优,及NoSQL数据的存储和查询;
3、熟悉CDH各个组件,及精通离线、实时等计算技术;
4、掌握java多线程高并发编程,及整合shiro、redis、fastdfs、MQ、netty等开发;
5、熟悉K8S集群管理Docker容器,及理解掌握openstack原理和操作。
展开
-
beeline 取hive数据,及基于共享层部署Mapreduce
1.部署流程图: 2. 取数方法: 建表: beeline "jdbc:hive2://master05.cluster-b.gdyd.com:10000/default;principal=hive/_HOST@GDSAI.COM?tez.queue.name=hanxin" -e " create table if not exists TMP_hanxin_HTTP...原创 2020-05-23 01:05:19 · 402 阅读 · 0 评论 -
Spark job提交时,spark-submit的主要参数的解析及建议
前言 说spark之前,先提一下MapReduce: 最本质的两个过程就是Map和Reduce Map的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行过滤,或者任何的转换操作,这些一对一的元素转换就称作是Map; Reduce主要就是元素的聚合,就是多个元素对一个元素的聚合,比如求Sum等,这就是Reduce。 Mapreduce是Hadoop1.0的核心,Spa...原创 2020-02-16 11:06:37 · 749 阅读 · 0 评论 -
对mapreduce分布式计算框架原理,进行完整流程分析
本文中大致的对mapreduce进行完整流程分析,map、reduce端的分析。 一、 MapReduce 简介 MapReduce源自google的一篇文章,将海量数据处理的过程拆分为map和reduce。mapreduce 成为了最早的分布式计算框架,这样即使不懂的分布式计算框架的内部运行机制的用户,也可以利用分布式的计算框架实现分布式的计算,并在hadoop上面运行。 二、 设计思想 ...原创 2020-02-03 00:10:20 · 1253 阅读 · 0 评论