
其他
文章平均质量分 61
王义凯_Rick
如果对你有帮助,就请点个赞吧~
展开
-
数据湖简介
数据湖是将公司所有数据,外部数据,不知道要不要用的数据放在一起,通过一定的数据治理,让数据可以被发现,被理解,以用于交叉查询或机器学习的研究。数据湖不麻烦,管理数据湖中的数据最麻烦,一不小心就会变成数据沼泽。没人知道里面有什么数据,从哪来的,是干嘛的。目前市面上流行的三大开源数据湖方案分别为:DeltaLake, Hudi, Iceberg 。原创 2021-03-14 22:49:48 · 1065 阅读 · 5 评论 -
分布式资源调度管理框架:YARN的架构及工作原理
Hadoop2.x引入了一个新的组件:YARN,它作为hadoop集群中的资源管理模块,为各类计算框架提供资源的管理和调度。负责管理集群中的资源:CPU,内存,磁盘,网络IO等等(v3.1.1版本之后新增了对GPU资源的管理)以及调度运行在YARN之上的各种计算任务。原创 2020-09-08 20:15:37 · 3001 阅读 · 0 评论 -
YARN查看和切换ResourceManager的状态
当YARN开启了HA之后,我们想要知道两个ResourceManager中哪台是ACTIVE,哪台是STANDBY状态,可以通过下面的方式来获取或切换它们的状态。原创 2020-09-07 11:37:15 · 10001 阅读 · 0 评论 -
离线安装部署CDH6.3.2集群
今天用虚拟机离线安装CDH6集群,现在CDP7已经出了,但没有社区版了,CDP7装起来只能用个60天,相比于CDH6的组件只有hive和spark进行了大版本更新以及加入几个新的组件,所以这里还是装CDH6,主要还是因为好久以前就下好了parcel包。。。原创 2020-09-02 17:45:35 · 6247 阅读 · 4 评论 -
CentOS7系统安装GitLab13
大家都知道gitee,github,但在企业中,大家都是使用gitlab作为远程仓库,本篇讲如何搭建私有的gitlab。另外还有汉化包,目前支持到gitlab12版本,有兴趣的可以尝试一下,下载覆盖重启即可,我这里使用的最新版gitlab13还没有汉化,所以就不演示了。原创 2020-07-24 17:14:24 · 2982 阅读 · 0 评论 -
2020-05-16: 记一次Cloudera厂商来介绍CDP7有感
时间:2020-05-14天气:阴坐标:上海杨浦区-----------------------------------------------------------------------背景: 很多人都知道,Cloudera和Hortonworks两大hadoop服务商在2018年国庆节期间合并了,当时的新闻:点击 我当时还转发了这个新闻,真的惊讶,这还让MapR怎么活? 后面果然MapR也HPE收购了。。不得不说HPE这波操作真的迷,典型的抱团取暖,笔者曾...原创 2020-05-16 15:39:25 · 3838 阅读 · 3 评论