
hdfs
hdfs
阿啄debugIT
0、精通java,及常用设计模式,熟练编写shell脚本,掌握python、scala、golang的编写;
1、精通Spring Cloud等微服务架构,掌握SpringBoot、batis等后端技术,kafka、redis、es等中间件的整合开发;
2、熟悉掌握mysql、pg等关系数据的原理及调优,及NoSQL数据的存储和查询;
3、熟悉CDH各个组件,及精通离线、实时等计算技术;
4、掌握java多线程高并发编程,及整合shiro、redis、fastdfs、MQ、netty等开发;
5、熟悉K8S集群管理Docker容器,及理解掌握openstack原理和操作。
展开
-
beeline 取hive数据,及基于共享层部署Mapreduce
1.部署流程图:2. 取数方法:建表:beeline"jdbc:hive2://master05.cluster-b.gdyd.com:10000/default;principal=hive/_HOST@GDSAI.COM?tez.queue.name=hanxin" -e "create table if not exists TMP_hanxin_HTTP...原创 2020-05-23 01:05:19 · 402 阅读 · 0 评论 -
Hive 数据存储详解
1、Hive 数据存储存储格式Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile等)。Parquet和ORC是属于列式存储。几张图看懂列式存储详细介绍了列式存储的原理和优势。从上图可以很清楚地看到,行式存储下一张表的数据都是放在一起的,但列式存储下都被分开保存了。所以它们就有了如下这些优缺点:这里...原创 2020-02-04 23:19:12 · 717 阅读 · 0 评论 -
对mapreduce分布式计算框架原理,进行完整流程分析
本文中大致的对mapreduce进行完整流程分析,map、reduce端的分析。一、 MapReduce 简介MapReduce源自google的一篇文章,将海量数据处理的过程拆分为map和reduce。mapreduce 成为了最早的分布式计算框架,这样即使不懂的分布式计算框架的内部运行机制的用户,也可以利用分布式的计算框架实现分布式的计算,并在hadoop上面运行。二、 设计思想...原创 2020-02-03 00:10:20 · 1254 阅读 · 0 评论