
大数据
whzatsh
目前在TOP5银行做大数据开发,正在修炼中.....
展开
-
Oozie相关问题解决
一、执行Oozie命令报认证失败问题解决在安装Oozie服务的主机上将当初添加该主机进CDH集群时所生成的主机证书文件cm-auto-host_cert_chain.pem加入到该主机本地java秘钥库中,执行如下命令查看本地java秘钥库已添加的证书列表:cd $JAVA_HOME/jre/lib/securitykeytool -list -keystore cacertsEnter keystore password: changeit然后执行如下命令将CDH主机认证证书文件cm-a原创 2020-10-19 20:12:39 · 564 阅读 · 0 评论 -
Cloudera官方文档整理
要评估集群的硬件和资源分配,需要分析要在集群上运行的工作负载类型,以及将用于运行这些工作负载的CDH组件。您还应该考虑要存储和处理的数据的大小、工作负载的频率、需要运行的并发作业的数量以及应用程序所需的速度。在创建集群的体系结构时,需要在集群中的主机之间分配Cloudera Manager和CDH角色,以最大限度地利用资源。Cloudera提供了一些关于如何将角色分配给集群主机的指南。请参阅建议的群集主机和角色分布。将多个角色分配给主机时,将主机上每个角色的总资源需求(内存、CPU、磁盘)相加,以确定所需原创 2020-10-18 23:38:35 · 849 阅读 · 2 评论 -
Hive表小文件合并方法总结
Hive表小文件合并方法总结Hive表小文件产生原因原创 2020-10-19 18:57:34 · 4385 阅读 · 1 评论 -
如何对CDH集群上用户提交的作业进行监控告警
以CDH6.0.1版本为例,其资源管理框架是YARN,对于所有跑在YARN上的job(或app),都可以通过YARN的ResourceManager(简称RM)提供的restful API请求查询其运行状态。其GET请求命令格式如下:GET http(or https)://rm-http(or https)-address:port/ws/v1/cluster/apps返回结果为json格式的所有YARN记录的job信息。也可在上述命令的URL后面添加多个过滤参数,支持的过滤参数有如下几个:原创 2020-10-06 18:37:29 · 1063 阅读 · 0 评论 -
如何向CDH集群添加主机节点
不知不觉干了两年多的大数据开发&运维,想当初入职时因为大数据组开发人手不足(就后来带我的一个人),把本来投的是运维开发岗的我调去了大数据组。虽然当时早就听说做大数据很有前途,但本硕学的都是通信工程的我完全没有基础啊不敢投啊,不知是人品好或是运气好该庆幸自己走了狗屎运转到了有“前途”的岗位,还是因为我的简历上有做Python开发的实习经历,反正我是体会到了大公司对应届校招生调岗是多么的随意。于是从这之后就开始了我的踩坑之旅。。。之所以来优快云写博客了,是因为踩过的坑如果不记录是不知道什么时候又会再踩原创 2020-08-22 20:01:13 · 1899 阅读 · 0 评论 -
standalone模式下Spark运行过程总结
在standalone模式下运行时的消息通信过程分以下两个阶段:一、spark集群启动时的消息通信过程当启动master后(start-master.sh),随之启动各个worker(start-slave.sh spark://whz:7077)。worker节点向master节点发送注册消息如图所示master收到消息后需要对worker发送的信息进行验证记录。如果注册成功则发送RegisteredWorker消息给对应的worker,告诉worker已经完成注册,随后注册成..原创 2020-08-15 22:02:37 · 566 阅读 · 0 评论 -
Spark SQL如何对Hive分区表进行数据重分区
在CDH集群上搭建数据仓库时,通常使用CDH自带的Sqoop导数工具将业务数据表从MySQL导入到Hive。当MySQL表数据量很大时,应采用创建分区表每日进行增量同步的方式。但第一次用sqoop导入时我们一般会将历史数据统一放到某个分区下面,因为这样会比按天依次将历史数据导入到对应日期的分区节省时间。但这样会使得查询某个时间范围的历史数据效率很低,故需要再进行数据重分区。由于我们主要使用Spar...原创 2019-11-12 21:00:48 · 2476 阅读 · 0 评论 -
SparkSQL实现分区覆盖写
一、创建分区表scala> spark.sql("CREATE TABLE ptable(c1 int,c2 int) PARTITIONED BY (step string)")res1: org.apache.spark.sql.DataFrame = []二、向分区中插入测试数据scala> spark.sql("INSERT INTO TABLE ptable...原创 2019-11-04 16:36:09 · 4692 阅读 · 0 评论 -
如何对CDH集群的服务进行监控告警
众所周知,运维以Hadoop为主的大数据平台的难点在于其生态组件众多,各组件之间的交互关系复杂,问题排查修复困难。而Cloudera推出的CDH(Cloudera Distribution Hadoop)能够让用户通过其中的Cloudera Manager十分方便地部署和管理Hadoop集群。Cloudera官方提供了Cloudera Manager的Java和Python版本的API接口供用...原创 2019-11-03 20:35:43 · 6590 阅读 · 1 评论